Найти в Дзене
aihlp.ru

Новый тест для ИИ оказался слишком умным для самих ИИ

Оглавление

AI-комьюнити снова в шоке: появился новый тест на общую искусственную интеллектуальность, который ставит в тупик даже самых продвинутых моделей вроде GPT-4.5 и Claude 3.7. Это не очередной «угадай слово» или «скажи, как приготовить борщ» — тут всё гораздо серьезнее.

Речь о ARC-AGI-2 — втором поколении теста от Arc Prize Foundation, созданного в том числе исследователем ИИ Франсуа Шолле (автором Keras).

Тест проверяет не просто обученность модели, а её способность к настоящему мышлению: видеть абстрактные закономерности и адаптироваться к незнакомым задачам. Всё это — без возможности "грубой силы" и перебора ответов.

Как выглядит тест?

Это задачки в стиле «визуальные головоломки» — цветные квадраты, из которых нужно определить закономерность и продолжить логическую последовательность. Только вместо школьника у доски — GPT, Claude или Gemini.

Кто справился, а кто — нет

Чтобы показать, насколько тест сложный, Arc Prize протестировали 400+ человек. Люди в среднем справились на 60%.

Теперь сравним это с результатами ИИ-моделей:

-2

МодельТест ARC-AGI-1Тест ARC-AGI-2Стоимость задачиOpenAI o3 (low)75.7%4%$200GPT-4.5~85%1%~$5Claude 3.7 Sonnet~83%1%~$4Gemini 2.0 Flash~81%1%~$3DeepSeek R1 (reasoning)—1.3%~$6OpenAI o1-pro—1%~$6

🧠 Люди — 60%, лучшие ИИ — 1–4%. Похоже, пока корона остаётся у нас.

Почему это важно?

Шолле и его команда специально убрали возможность «читерства» через перебор или сверхмощные сервера, как это было в первом тесте. Теперь тест оценивает:

  • Способность к переносу знаний
  • Интерпретацию паттернов в реальном времени
  • Эффективность — сколько ресурсов нужно модели, чтобы справиться

Формула успеха в ARC-AGI-2 звучит как: «Делай умно, а не дорого». Победить в конкурсе Arc Prize 2025 можно будет, если достигнешь 85% точности с затратами не выше $0.42 за задачу.

Почему ИИ с треском проваливаются?

  1. Модели не умеют абстрагироваться. Они хороши в шаблонах, но новые, нестандартные задачи ломают шаблон.
  2. Слишком зависимы от данных. Большинство моделей решают задачи на основе похожих примеров из тренировки, а не логики.
  3. Зависят от вычислительных мощностей. А ARC-AGI-2 как раз и запрещает «просто кидать в задачу деньги».

Что дальше?

ИИ становится всё мощнее, но становится ясно: развитие = не просто масштаб, а глубина мышления. Новые бенчмарки, такие как ARC-AGI-2, становятся стандартом для оценки будущего настоящего ИИ. Это важный сдвиг в сторону качественного, а не количественного прогресса.

Если раньше было достаточно построить сеть побольше и натренировать подольше — сегодня важно, чтобы ИИ учился и думал, а не просто вспоминал.

Подводим итоги:

  • ARC-AGI-2 — это не про повторение, а про настоящее мышление.
  • Модели пока что проигрывают человеку.
  • Arc Prize 2025 обещает $1 млн тем, кто научит ИИ решать задачи эффективно — и дешево.

Хотите, чтобы ваш бизнес стал умнее, быстрее и эффективнее?

Мы разрабатываем ИИ-решения, которые помогут вам автоматизировать процессы, увеличить прибыль и опередить конкурентов.🔗 Узнайте больше на нашем сайте: https://aihlp.ru/

📩 По вопросам сотрудничества пишите:Telegram: @itinai

Почта: itinai.com@gmail.com

📌 Подписывайтесь на нас в соцсетях:

Одноклассники

Дзен

#ИИ #AGI #ИскусственныйИнтеллект #AIProgress #GPT #ARCAGI #AI2025 #ML #MachineLearning #ФрансуаШолле #DeepLearning #OpenAI #ТестНаИнтеллект