Без учета сложности изображений, используемых для оценки, трудно объективно оценить прогресс в достижении производительности человеческого уровня, охватить диапазон человеческих способностей и усложнить задачу, создаваемую набором данных.Android-robot.com
Студент факультета электротехники и информатики и член CSAIL погрузился в глубокий мир наборов данных изображений, исследуя, почему одни изображения труднее распознавать людям и машинам, чем другие.Android-robot.com
Более крупные модели показали значительное улучшение на простых изображениях, но добились меньшего прогресса на более сложных изображениях.Android-robot.com
Модели CLIP, включающие в себя как язык, так и видение, выделились по мере продвижения в направлении более человеческого распознавания.Android-robot.com