459,3 тыс подписчиков

Этот тест не может решить ни одна нейросеть, а люди могут

27 марта27 мар

127

2 мин

Тест ARC-AGI-2, разработанный фондом Arc Prize Foundation, представляет собой новый стандарт для оценки общего интеллекта искусственного интеллекта. Он был создан с целью выявления способности ИИ адаптироваться к задачам, которые не встречались в обучающих данных. В отличие от предыдущих тестов, ARC-AGI-2 исключает возможность решения задач методом грубой силы, что делает его особенно сложным для современных нейросетей.

ARC-AGI-2 состоит из серии головоломок, в которых ИИ должен идентифицировать визуальные закономерности, анализируя разноцветные квадраты. Задачи требуют от моделей не только решения, но и способности к адаптации и пониманию новых концепций, что является значительным вызовом для существующих технологий.

В ходе тестирования, проведенного с участием более 400 человек, средний результат людей составил около 60%, в то время как лучшие модели ИИ показали результаты не более 1,3%. Это подчеркивает огромный разрыв между возможностями современных ИИ и человеческим интеллектом, особенно в задачах, требующих креативного подхода и обобщения знаний.

ARC-AGI-2 не только служит индикатором прогресса в области искусственного интеллекта, но и ставит перед исследователями новые задачи. Он подчеркивает необходимость разработки более адаптивных и эффективных ИИ-систем, способных решать задачи, которые легко выполняются людьми, но остаются сложными для машин.

Почему тест ARC-AGI-2 сложен для нейросетей?

ARC-AGI-2 исключает возможность решения задач с помощью "грубой силы", то есть за счет использования огромной вычислительной мощности. Это означает, что модели не могут просто перебрать все возможные варианты, чтобы найти правильный ответ. Вместо этого они должны проявлять адаптивность и креативность в решении задач, что требует более глубокого понимания и анализа.

2. Адаптация к новым задачам:

Тест включает задачи, которые требуют от ИИ способности адаптироваться к новым условиям и контекстам. Это означает, что модели должны применять ранее полученные знания в новых ситуациях, что является сложной задачей для большинства современных ИИ, которые часто полагаются на запоминание и шаблонное мышление.

3. Сложные визуальные паттерны:

Задачи теста основаны на распознавании визуальных закономерностей, что требует от ИИ способности интерпретировать символы и их значения, а не просто выявлять поверхностные паттерны. Например, модели должны понимать, что определенные цвета или формы могут иметь специфическое значение в контексте задачи, что часто выходит за рамки их обучающих данных.

4. Эффективность и стоимость решения задач:

ARC-AGI-2 вводит новый критерий оценки — эффективность, которая измеряет не только способность решать задачи, но и затраты на их решение. Это означает, что модели должны не только находить правильные ответы, но и делать это с минимальными вычислительными затратами. Например, в тесте человеческие участники решали задачи за $17, в то время как некоторые ИИ модели тратят до $200 на аналогичные задачи.

5. Сложные правила и контекстуальная адаптация:

Задачи теста требуют применения нескольких правил одновременно и адаптации к изменяющимся условиям. Это может включать в себя необходимость изменять подход в зависимости от контекста, что является сложной задачей для ИИ, который не всегда способен правильно интерпретировать нюансы.

Таким образом, тест ARC-AGI-2 ставит перед нейросетями уникальные вызовы, требуя от них не только высокой точности, но и способности к адаптации, креативности и эффективному решению задач в условиях неопределенности.