AI-комьюнити снова в шоке: появился новый тест на общую искусственную интеллектуальность, который ставит в тупик даже самых продвинутых моделей вроде GPT-4.5 и Claude 3.7. Это не очередной «угадай слово» или «скажи, как приготовить борщ» — тут всё гораздо серьезнее.
Речь о ARC-AGI-2 — втором поколении теста от Arc Prize Foundation, созданного в том числе исследователем ИИ Франсуа Шолле (автором Keras).
Тест проверяет не просто обученность модели, а её способность к настоящему мышлению: видеть абстрактные закономерности и адаптироваться к незнакомым задачам. Всё это — без возможности "грубой силы" и перебора ответов.
Как выглядит тест?
Это задачки в стиле «визуальные головоломки» — цветные квадраты, из которых нужно определить закономерность и продолжить логическую последовательность. Только вместо школьника у доски — GPT, Claude или Gemini.
Кто справился, а кто — нет
Чтобы показать, насколько тест сложный, Arc Prize протестировали 400+ человек. Люди в среднем справились на 60%.
Теперь сравним это с результатами ИИ-моделей:
МодельТест ARC-AGI-1Тест ARC-AGI-2Стоимость задачиOpenAI o3 (low)75.7%4%$200GPT-4.5~85%1%~$5Claude 3.7 Sonnet~83%1%~$4Gemini 2.0 Flash~81%1%~$3DeepSeek R1 (reasoning)—1.3%~$6OpenAI o1-pro—1%~$6
🧠 Люди — 60%, лучшие ИИ — 1–4%. Похоже, пока корона остаётся у нас.
Почему это важно?
Шолле и его команда специально убрали возможность «читерства» через перебор или сверхмощные сервера, как это было в первом тесте. Теперь тест оценивает:
- Способность к переносу знаний
- Интерпретацию паттернов в реальном времени
- Эффективность — сколько ресурсов нужно модели, чтобы справиться
Формула успеха в ARC-AGI-2 звучит как: «Делай умно, а не дорого». Победить в конкурсе Arc Prize 2025 можно будет, если достигнешь 85% точности с затратами не выше $0.42 за задачу.
Почему ИИ с треском проваливаются?
- Модели не умеют абстрагироваться. Они хороши в шаблонах, но новые, нестандартные задачи ломают шаблон.
- Слишком зависимы от данных. Большинство моделей решают задачи на основе похожих примеров из тренировки, а не логики.
- Зависят от вычислительных мощностей. А ARC-AGI-2 как раз и запрещает «просто кидать в задачу деньги».
Что дальше?
ИИ становится всё мощнее, но становится ясно: развитие = не просто масштаб, а глубина мышления. Новые бенчмарки, такие как ARC-AGI-2, становятся стандартом для оценки будущего настоящего ИИ. Это важный сдвиг в сторону качественного, а не количественного прогресса.
Если раньше было достаточно построить сеть побольше и натренировать подольше — сегодня важно, чтобы ИИ учился и думал, а не просто вспоминал.
Подводим итоги:
- ARC-AGI-2 — это не про повторение, а про настоящее мышление.
- Модели пока что проигрывают человеку.
- Arc Prize 2025 обещает $1 млн тем, кто научит ИИ решать задачи эффективно — и дешево.
Хотите, чтобы ваш бизнес стал умнее, быстрее и эффективнее?
Мы разрабатываем ИИ-решения, которые помогут вам автоматизировать процессы, увеличить прибыль и опередить конкурентов.🔗 Узнайте больше на нашем сайте: https://aihlp.ru/
📩 По вопросам сотрудничества пишите:Telegram: @itinai
Почта: itinai.com@gmail.com
📌 Подписывайтесь на нас в соцсетях:
Дзен
#ИИ #AGI #ИскусственныйИнтеллект #AIProgress #GPT #ARCAGI #AI2025 #ML #MachineLearning #ФрансуаШолле #DeepLearning #OpenAI #ТестНаИнтеллект