211 подписчиков

GPT-5.4 набрал 0,26%, а пятилетний ребёнок — 100%. ARC-AGI-3 показал ИИ его место

26 марта26 мар

7 мин

Вчера, 25 марта 2026 года, произошло событие, которое индустрия ИИ будет переваривать ещё долго. Франсуа Шолле — создатель Keras и, пожалуй, самый упрямый критик гонки за размером моделей — выкатил ARC-AGI-3. Это не просто очередной бенчмарк, а по сути первый тест, который ловит ИИ на самом болезненном: неспособности учиться на лету, как это делает любой человек. И результаты оказались, мягко говоря, отрезвляющими. Чтобы понять, зачем вообще нужен ARC-AGI-3, стоит оглянуться назад. Последние пару лет мы наблюдали забавный спектакль: лаборатории выпускают модель, она «побеждает» на пачке бенчмарков, маркетинг трубит о прорыве — и все хлопают в ладоши. Проблема в том, что эти тесты давно перестали измерять интеллект. Они измеряют память. Вот конкретный пример: когда команда ARC Prize проверяла Gemini 3 на задачах ARC-AGI-2, в логах рассуждений модели обнаружились точные цвето-числовые маппинги из датасета ARC. Модель нигде не получала этих данных в промпте — она их просто помнила из обуч

Оглавление

Почему старые бенчмарки перестали работать
Что такое ARC-AGI-3 и как он устроен
Как считают очки: квадратичная жестокость метрики RHAE

Почему старые бенчмарки перестали работать

Чтобы понять, зачем вообще нужен ARC-AGI-3, стоит оглянуться назад. Последние пару лет мы наблюдали забавный спектакль: лаборатории выпускают модель, она «побеждает» на пачке бенчмарков, маркетинг трубит о прорыве — и все хлопают в ладоши. Проблема в том, что эти тесты давно перестали измерять интеллект. Они измеряют память.

Вот конкретный пример: когда команда ARC Prize проверяла Gemini 3 на задачах ARC-AGI-2, в логах рассуждений модели обнаружились точные цвето-числовые маппинги из датасета ARC. Модель нигде не получала этих данных в промпте — она их просто помнила из обучения. То есть не решала задачу, а доставала ответ из памяти, как студент, который зазубрил билеты. Формально — правильно. По существу — никакого мышления.

Именно этот «новый тип переобучения» стал последней каплей для Шолле. Статические тесты вида «вот вход → покажи выход» исчерпали себя. Нужен был принципиально иной формат.

Что такое ARC-AGI-3 и как он устроен

ARC-AGI-3 — это 135 уникальных интерактивных сред, каждая из которых больше похожа на мини-игру, чем на тест. Представьте себе сетку 64×64 пикселя. Вы — агент внутри неё. Инструкций нет. Цель не объяснена. Правила не написаны. Разбирайтесь сами.

Именно так познаёт мир ребёнок. Он тянется к предмету, роняет его, слышит звук — и формирует гипотезу: «тяжёлые штуки падают и грохочут». Потом проверяет её на другом предмете. Это и есть интеллект по Шолле — не знание, а скорость обучения в незнакомой ситуации.

Бенчмарк проверяет четыре ключевых компонента того, что авторы называют «агентным интеллектом»:

🧭 Исследование — агент должен активно взаимодействовать со средой, пробовать разные действия и наблюдать последствия. Не сидеть и ждать данных, а лезть и трогать.

🧠 Построение модели мира — на основе наблюдений нужно сформировать внутреннее представление о том, как среда работает. Какие действия к чему приводят, какие паттерны повторяются.

🎯 Самостоятельное целеполагание — никто не говорит, что значит «выиграть». Агент должен сам понять, к чему стремиться. Это, пожалуй, самая жёсткая часть: современные LLM заточены на выполнение чётких инструкций, а тут инструкций нет вообще.

📅 Планирование — нужно думать на несколько ходов вперёд, удерживать в памяти контекст и выстраивать цепочку действий. Не реактивно, а стратегически.

Каждая среда содержит 8–10 уровней с нарастающей сложностью: новые уровни вводят новые механики, так что заученная стратегия с предыдущего этапа перестаёт работать.

Как считают очки: квадратичная жестокость метрики RHAE

Вот тут начинается самое интересное с технической точки зрения. ARC-AGI-3 не спрашивает «справился или нет». Он спрашивает: «справился, но насколько эффективно по сравнению с человеком?»

Метрика называется RHAE — Relative Human Action Efficiency. И формула у неё квадратичная. Что это значит на практике? Если человек проходит уровень за 10 действий, а ИИ — за 100, то модель получает не 10% (как было бы при линейной шкале), а всего 1%. При 1000 действий — уже 0,01%.

Зачем такая жёсткость? Чтобы отсечь стратегию «метода тыка». Перебрать все варианты рано или поздно можно, но это не интеллект — это брутфорс. Шолле измеряет именно то, что отличает человека: способность быстро выдвинуть гипотезу, проверить её минимальным числом экспериментов и скорректировать понимание.

Для калибровки человеческой нормы 486 добровольцев проходили тестирование в Сан-Франциско трижды в неделю. Среда включалась в бенчмарк, только если как минимум двое из десяти испытуемых проходили её полностью с первой попытки. Таким образом, 100% сред гарантированно решаемы обычным человеком.

Результаты, от которых становится неловко

А теперь — цифры, ради которых вы, скорее всего, и читаете эту статью. Результаты фронтирных моделей на полуприватном наборе данных (то есть том, который точно не попал в обучающие выборки):

👨‍🎓 Люди — 100% сред решено, медианное время — 7,4 минуты

🤖 Gemini 3.1 Pro Preview — 0,37%

🤖 GPT-5.4 (High) — 0,26%

🤖 Opus 4.6 (Max) — 0,25%

🤖 Grok-4.20 — 0,00%

Перечитайте ещё раз. Лучшая коммерческая модель на планете набрала три десятых процента. Grok не набрал вообще ничего. И это не какие-то запредельно сложные задачи для людей — обычный человек разбирается в каждой среде за 7 минут.

Справедливости ради, в превью-фазе (30-дневный период до официального запуска) лучший ИИ-агент набрал 12,58%. Но это был не «голый» LLM, а специально сконструированная система с внешним харнессом — по сути, с программой-помощником, которая вела журнал действий, анализировала состояния и подсказывала стратегию.

Почему запретили «костыли» — и правильно ли это

Самое обсуждаемое решение ARC-AGI-3: в основном зачёте модели получают минимальный промпт — «Вы играете в игру. Ваша цель — выиграть» — и всё. Никаких специально написанных харнессов, вспомогательных скриптов, предварительно заданных стратегий.

Почему? Авторы приводят яркий пример: с харнессом Duke модель Opus 4.6 выдаёт 97,1% на одной конкретной среде — и ровно 0% на другой. Харнесс не обобщается. Он работает только там, где инженер угадал правильную стратегию. По сути, это измеряет не интеллект модели, а мастерство её создателей.

Мне этот подход кажется правильным, хоть и жёстким. Представьте, что на экзамене одному студенту дают чистый лист, а другому — шпаргалку с алгоритмом решения. Даже если оба «сдали», мы тестируем разные вещи. ARC-AGI-3 хочет тестировать именно интеллект в чистом виде. Для инженерных решений с харнессами есть отдельный трек соревнований — и это разумная архитектура: сравниваем модели отдельно, системы отдельно.

Что это всё значит — и мой взгляд на ситуацию

Я вижу в ARC-AGI-3 несколько важных сигналов.

Во-первых, этот бенчмарк окончательно оформил то, о чём многие догадывались: масштабирование — не путь к AGI. С 2020 года вычислительные мощности, используемые для обучения моделей, выросли в 50 000 раз. При этом на задачах, требующих настоящего обобщения, прогресс околонулевой. Больше параметров, больше данных, больше GPU — но фундаментальный разрыв с человеком не сокращается. Он просто лучше маскируется на старых тестах.

Во-вторых, Шолле давно говорит вещь, которая кажется мне ключевой: навык — это не интеллект. Навык — это готовая сеть дорог. Интеллект — это компания по строительству дорог, которая способна проложить путь в любом новом направлении. Современные LLM — фантастически густая сеть дорог. Но когда карта заканчивается, они встают.

В-третьих, дорожная карта ARC говорит о многом. Шолле планирует ARC-AGI-4 на начало 2027-го, потом ARC-5, и так далее до тех пор, пока не останется задач, где человек превосходит машину. Финал, по его прогнозу, — около 2030 года. Это значит, что перед нами не разовая акция, а методичная, многолетняя программа с чётким критерием успеха.

Что касается призового фонда — он больше 2 миллионов долларов, а все решения-победители должны быть выложены под открытой лицензией (MIT или CC0). Это принципиальная позиция: прогресс к AGI должен быть открытым.

Вместо заключения: зеркало, а не приговор

ARC-AGI-3 — это не про то, что ИИ плохой. Нейросети уже трансформировали десятки отраслей и продолжат это делать. Но этот бенчмарк — зеркало, показывающее конкретно, чего не хватает. Не знаний (их у GPT-5.4 вагон). Не скорости (она считает за секунды то, что человек делает часами). А умения учиться в незнакомой ситуации — самой базовой способности, которая есть у любого трёхлетнего ребёнка.

Пока лучшие модели мира набирают доли процента там, где человек справляется за 7 минут, разговоры об «искусственном общем интеллекте» остаются именно разговорами. Но теперь, благодаря ARC-AGI-3, у нас есть объективная линейка, которая покажет, когда — и если — этот разрыв начнёт сокращаться.

Источники

🔗 Официальная страница ARC-AGI-3 — описание бенчмарка, SDK и демо-среды

🔗 Подробный разбор на Telegraph — оригинальная новость

🔗 Новость на Хабре — технические детали и результаты моделей

🔗 Документация ARC-AGI-3 — SDK для разработчиков агентов

🔗 ARC Prize 2026 — соревнование — три трека с призовым фондом $2M+

🔗 Технический отчёт ARC Prize 2025 — обоснование перехода к интерактивному формату

🔗 Материал Fast Company — интервью и контекст индустрии