Джереми Берман дважды устанавливал рекорды на бенчмарке ARC-AGI, представляющем собой один из самых сложных тестов для оценки общего интеллекта искусственных систем. Его последний результат в сентябре 2025 года показал 79.6% на ARC v1 при стоимости $8.42 за задачу (в 25 раз эффективнее, чем o3 от OpenAI) и 29.4% на ARC v2 (новый рекорд). Особенно примечательно, что он заменил генерацию Python-функций на естественные языковые инструкции, что стало ключевым прорывом.
Понимание ARC-AGI бенчмарка
Природа теста
ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) представляет собой визуальный тест интеллекта, разработанный Франсуа Шолле в 2019 году для измерения способности к абстрактному распознаванию паттернов. В отличие от традиционных бенчмарков, ARC тестирует способность к обобщению на задачах, которые модель никогда не видела раньше.
Структура задач
Каждая задача состоит из входных и выходных сеток с цветными клетками. Испытуемый получает несколько примеров (обычно 2-3) трансформации входной сетки в выходную, а затем должен применить выявленное правило к новой тестовой сетке. Человек легко справляется с такими задачами, достигая точности 76.2% на тренировочном наборе и 64.2% на оценочном. Лучшие LLM показывают лишь 16% точности на публичном наборе.
Разница между ARC v1 и v2
ARC-AGI v2, выпущенный в начале 2025 года, содержит значительно более сложные задачи, требующие многошагового рассуждения. Если на ARC v1 o3 от OpenAI показал 75.7%, то на ARC v2 тот же подход дал лишь около 4%. Это подчеркивает качественный скачок в сложности новой версии.
Архитектура системы: эволюционные вычисления во время тестирования
Основная концепция
Берман разработал архитектуру "Evolutionary Test-Time Compute" — систему, которая использует принципы генетических алгоритмов для поиска решений в пространстве инструкций. Ключевая идея заключается в том, что если LLM достаточно "умна", но не может сразу найти правильное решение, то множественные попытки с эволюционным отбором могут привести к успеху.
Замена Python на английский язык
В первой версии системы (декабрь 2024) Берман использовал генерацию Python-функций, которые можно было детерминистически протестировать. Однако для ARC v2 этот подход оказался неэффективным — трансформации стали слишком сложными для элегантного выражения в коде, требуя громоздких и хрупких решений.
Решение пришло через возврат к более древнему языку — английскому. Система стала генерировать естественно-языковые инструкции для описания трансформаций входных сеток в выходные.
Детальная техническая реализация
Основной цикл системы
Генерация инструкций: Grok-4 генерирует естественно-языковые инструкции, описывающие как преобразовать входную сетку в выходную.
Оценка через суб-агентов: Отдельная модель применяет эти инструкции к тренировочным примерам, обрабатывая каждую тренировочную сетку как тестовую и генерируя предполагаемый правильный выход.
Подсчет фитнеса: Система вычисляет оценку для каждой инструкции на основе количества правильно решенных тренировочных примеров (или частично, подсчитывая процент правильных клеток).
Стратегии пересмотра: индивидуальные vs объединенные
Индивидуальные пересмотры
Берут одну инструкцию с ее сгенерированными выходами и эталонными ответами. Модель видит как исходные сетки, так и ASCII-разности, выделяющие расхождения. Используя эту обратную связь, система уточняет инструкцию для исправления ошибок.
Объединенные пересмотры
Следуют тому же принципу, но объединяют несколько инструкций в единый контекст. Модель получает запрос на синтез новой инструкции, включающей успешные элементы от каждой родительской инструкции.
Финальная архитектура
После обширных экспериментов Берман пришел к следующему дизайну:
Начальная генерация: 30 кандидатов инструкций от Grok-4
Фаза индивидуального пересмотра: Если идеальные решения не найдены, берутся топ-5 инструкций для индивидуального пересмотра
Фаза объединенного пересмотра: При отсутствии идеальных решений создается объединенный промпт из 5 лучших инструкций для генерации 5 новых кандидатов
В худшем случае система генерирует 40 попыток инструкций на задачу: 30 начальных + 5 индивидуальных пересмотров + 5 объединенных пересмотров.
Техническая реализация: код и промпты
Структура репозитория
Берман опубликовал код системы в репозитории arc-lang-public. Основные компоненты включают:
- src/run.py — асинхронная точка входа и оркестрация всего цикла решения
- src/main.py — конструкторы промптов для создания инструкций, пересмотра и выполнения сеток
- src/configs/ — готовые пресеты RunConfig для различных конфигураций
- src/llms/ — обертки провайдеров и помощники структурированного вывода
Обработка промптов
Система использует сложную систему промптов с 36 динамическими промптами на задачу, включая различные стратегии для генерации инструкций, их пересмотра и объединения. Промпты включают визуализацию сеток, ASCII-разности для выделения ошибок и контекстную информацию о предыдущих попытках.
Фундаментальные инсайты о рассуждении в LLM
Концепция "мертвых зон рассуждения"
Берман вводит концепцию "dead reasoning zones" — областей в весах LLM, где логика не работает. В отличие от людей, которые имеют "мертвые зоны знаний" (вещи, которые мы не знаем), но не "мертвые зоны рассуждения", LLM демонстрируют фундаментальные провалы в логике при выходе за пределы обучающего распределения.
Берман наблюдал более 100,000 трассировок мыслящих моделей, генерирующих очевидно ложные инструкции. Модели могут тратить 20 минут на "размышления", а затем уверенно утверждать, что объект симметричен, когда это очевидно не так.
Проблема слитых схем
LLM изучают рассуждение предметно-специфическим образом. При обучении на математике они изучают математическое рассуждение, при обучении на коде — рассуждение для программирования. Эти схемы рассуждения сливаются с предметно-специфическими схемами.
Как если бы люди хранили сжатое ядро дедукции и логики, которое мы используем для всего, тогда как LLM хранят это ядро фрагментированным в предметно-специфических вложениях. Они переобучаются на предметно-специфических паттернах рассуждения.
Роль обучения с подкреплением
Берман утверждает, что RL (обучение с подкреплением) над цепочкой рассуждений является процессом принуждения предобученных весов к логической согласованности. Модели больше не изучают только то, что звучит правильно на основе паттернов, которые они видели, но изучают какие слова выводить, чтобы быть правильными.
Результаты и сравнение с конкурентами
Эффективность по сравнению с o3
Система Бермана достигла 79.6% на ARC v1 при стоимости $8.42 за задачу, что в 25 раз эффективнее o3 от OpenAI, который показал 75.7% при стоимости $200 за задачу. Это демонстрирует, что архитектурные инновации могут быть более важными, чем простое масштабирование вычислений.
Прорыв на ARC v2
Наиболее значимым достижением стал результат 29.4% на ARC v2 (предыдущий рекорд: 25%). Учитывая, что o3 показал лишь около 4% на ARC v2 при использовании $200 на задачу, это представляет качественное улучшение в подходе к решению задач.
Философские и практические следствия
Путь к AGI через эффективность
Берман предполагает, что AGI может возникнуть не через выход моделей за пределы их обучающего распределения, а через включение самого рассуждения в это распределение. Нам нужно привести само рассуждение полностью в распределение обучения — не предметно-специфическое рассуждение, а чистое умение логической дедукции и согласованности, которое люди применяют универсально.
Масштабирование тестового времени вычислений
Подход Бермана демонстрирует принципиально новую парадигму: вместо предварительного обучения более крупных моделей, можно достичь лучших результатов через умное масштабирование вычислений во время тестирования с эволюционным руководством.
Ограничения и будущие направления
Вычислительные затраты
Несмотря на эффективность по сравнению с o3, система все еще требует значительных вычислительных ресурсов, генерируя до 40 кандидатов инструкций на задачу. Для практических применений необходимы дальнейшие оптимизации.
Обобщение на другие домены
Пока неясно, насколько хорошо принципы эволюционных вычислений во время тестирования обобщаются на другие задачи рассуждения за пределами ARC-AGI. Необходимы исследования применимости подхода к более широкому спектру задач.
Заключение
Работа Джереми Бермана представляет фундаментальный сдвиг в понимании того, как достичь надежного рассуждения в LLM. Переход от генерации кода к естественно-языковым инструкциям, объединенный с эволюционными принципами поиска, демонстрирует, что архитектурные инновации могут превзойти простое масштабирование вычислений.
Его инсайты о "мертвых зонах рассуждения" и "проблеме слитых схем" предоставляют новую концептуальную основу для понимания ограничений текущих LLM и направлений их преодоления. Роль обучения с подкреплением в обеспечении логической согласованности открывает путь к более надежным системам рассуждения.
Достижение рекордных результатов на ARC-AGI с высокой эффективностью подтверждает потенциал эволюционных подходов во время тестирования как перспективного направления для развития более общих и адаптивных систем искусственного интеллекта.