3 подписчика

Новый тест для ИИ оказался слишком умным для самих ИИ

25 марта 202525 мар 2025

2 мин

AI-комьюнити снова в шоке: появился новый тест на общую искусственную интеллектуальность, который ставит в тупик даже самых продвинутых моделей вроде GPT-4.5 и Claude 3.7. Это не очередной «угадай слово» или «скажи, как приготовить борщ» — тут всё гораздо серьезнее. Речь о ARC-AGI-2 — втором поколении теста от Arc Prize Foundation, созданного в том числе исследователем ИИ Франсуа Шолле (автором Keras). Тест проверяет не просто обученность модели, а её способность к настоящему мышлению: видеть абстрактные закономерности и адаптироваться к незнакомым задачам. Всё это — без возможности "грубой силы" и перебора ответов. Это задачки в стиле «визуальные головоломки» — цветные квадраты, из которых нужно определить закономерность и продолжить логическую последовательность. Только вместо школьника у доски — GPT, Claude или Gemini. Чтобы показать, насколько тест сложный, Arc Prize протестировали 400+ человек. Люди в среднем справились на 60%. Теперь сравним это с результатами ИИ-моделей: МодельТ

Оглавление

Как выглядит тест?
Кто справился, а кто — нет
Почему это важно?

AI-комьюнити снова в шоке: появился новый тест на общую искусственную интеллектуальность, который ставит в тупик даже самых продвинутых моделей вроде GPT-4.5 и Claude 3.7. Это не очередной «угадай слово» или «скажи, как приготовить борщ» — тут всё гораздо серьезнее.

Речь о ARC-AGI-2 — втором поколении теста от Arc Prize Foundation, созданного в том числе исследователем ИИ Франсуа Шолле (автором Keras).

Тест проверяет не просто обученность модели, а её способность к настоящему мышлению: видеть абстрактные закономерности и адаптироваться к незнакомым задачам. Всё это — без возможности "грубой силы" и перебора ответов.

Как выглядит тест?

Это задачки в стиле «визуальные головоломки» — цветные квадраты, из которых нужно определить закономерность и продолжить логическую последовательность. Только вместо школьника у доски — GPT, Claude или Gemini.

Кто справился, а кто — нет

Чтобы показать, насколько тест сложный, Arc Prize протестировали 400+ человек. Люди в среднем справились на 60%.

Теперь сравним это с результатами ИИ-моделей:

МодельТест ARC-AGI-1Тест ARC-AGI-2Стоимость задачиOpenAI o3 (low)75.7%4%$200GPT-4.5~85%1%~$5Claude 3.7 Sonnet~83%1%~$4Gemini 2.0 Flash~81%1%~$3DeepSeek R1 (reasoning)—1.3%~$6OpenAI o1-pro—1%~$6

🧠 Люди — 60%, лучшие ИИ — 1–4%. Похоже, пока корона остаётся у нас.

Почему это важно?

Шолле и его команда специально убрали возможность «читерства» через перебор или сверхмощные сервера, как это было в первом тесте. Теперь тест оценивает:

Способность к переносу знаний
Интерпретацию паттернов в реальном времени
Эффективность — сколько ресурсов нужно модели, чтобы справиться

Формула успеха в ARC-AGI-2 звучит как: «Делай умно, а не дорого». Победить в конкурсе Arc Prize 2025 можно будет, если достигнешь 85% точности с затратами не выше $0.42 за задачу.

Почему ИИ с треском проваливаются?

Модели не умеют абстрагироваться. Они хороши в шаблонах, но новые, нестандартные задачи ломают шаблон.
Слишком зависимы от данных. Большинство моделей решают задачи на основе похожих примеров из тренировки, а не логики.
Зависят от вычислительных мощностей. А ARC-AGI-2 как раз и запрещает «просто кидать в задачу деньги».

Что дальше?

ИИ становится всё мощнее, но становится ясно: развитие = не просто масштаб, а глубина мышления. Новые бенчмарки, такие как ARC-AGI-2, становятся стандартом для оценки будущего настоящего ИИ. Это важный сдвиг в сторону качественного, а не количественного прогресса.

Если раньше было достаточно построить сеть побольше и натренировать подольше — сегодня важно, чтобы ИИ учился и думал, а не просто вспоминал.

Подводим итоги:

ARC-AGI-2 — это не про повторение, а про настоящее мышление.
Модели пока что проигрывают человеку.
Arc Prize 2025 обещает $1 млн тем, кто научит ИИ решать задачи эффективно — и дешево.

Хотите, чтобы ваш бизнес стал умнее, быстрее и эффективнее?

Мы разрабатываем ИИ-решения, которые помогут вам автоматизировать процессы, увеличить прибыль и опередить конкурентов.🔗 Узнайте больше на нашем сайте: https://aihlp.ru/

📩 По вопросам сотрудничества пишите:Telegram: @itinai

Почта: itinai.com@gmail.com

📌 Подписывайтесь на нас в соцсетях:

Одноклассники

Дзен

#ИИ #AGI #ИскусственныйИнтеллект #AIProgress #GPT #ARCAGI #AI2025 #ML #MachineLearning #ФрансуаШолле #DeepLearning #OpenAI #ТестНаИнтеллект

Гаджеты и электроника

5,73 млн интересуются