24 подписчика

ARC: ИИ превзошел человека в тесте на абстрактное мышление

27 декабря 202527 дек 2025

2 мин

Бенчмарк ARC (Abstraction and Reasoning Corpus), долгое время считавшийся одной из самых сложных проверок абстрактного мышления для ИИ, оказался ещё одной «жертвой» оптимизации и инженерных ухищрений в индустрии ИИ. По данным аналитиков и свежим результатам стартапа Poetiq, современные системы на базе больших моделей, включая GPT‑5.2 X‑High, показали до 75% точности на ARC‑AGI‑2, что выше средней оценки человека на этих задачах. Изначально ARC создавался для измерения истинного обобщающего интеллекта, а не простого запоминания статистики или шаблонов. Его особенность заключалась в том, что задачи требуют абстрактного рассуждения и понимания закономерностей, чего именно не хватает многим большим языковым моделям. Однако последние успехи продемонстрировали, что инженерные стратегии, такие как усовершенствованные промпты, генерация кода и итеративное самокорректирование, позволяют системам достигать очень высоких результатов, превращая ARC из лабораторного испытания в оптимизационный тарг

Изначально ARC создавался для измерения истинного обобщающего интеллекта, а не простого запоминания статистики или шаблонов. Его особенность заключалась в том, что задачи требуют абстрактного рассуждения и понимания закономерностей, чего именно не хватает многим большим языковым моделям. Однако последние успехи продемонстрировали, что инженерные стратегии, такие как усовершенствованные промпты, генерация кода и итеративное самокорректирование, позволяют системам достигать очень высоких результатов, превращая ARC из лабораторного испытания в оптимизационный таргет.

Компания Poetiq подробно описывает свой подход: их система направляет основную модель (например, GPT‑5.2) на генерацию кода для решения каждой отдельной задачи, затем исполняет этот код, проверяет корректность результата и вносит исправления, если они требуются. Несколько независимых запусков затем объединяются для повышения надёжности итогового вывода. Этот цикл сочетает мощь генеративных моделей с программным анализом и логикой поиска, что существенно повышает итоговые баллы.

Тем не менее высокие результаты пока относятся только к «публичным» наборам данных, доступным для обучения и оптимизации. На полусекретных наборах, которые обычно используются для официальных соревнований и частных тестов, показатели могут заметно падать, поскольку модели могли уже «усвоить» публичные примеры в процессе обучения. Это поднимает вопросы о том, насколько текущие результаты отражают настоящие способности к обобщающему мышлению, а не умение оптимизировать под конкретные тесты.

Креаторы ARC и эксперты по ИИ напоминают, что изначальная цель этих бенчмарков — стимулировать исследования в направлении универсального интеллекта, а не просто «побить рекорд». Но то, что ARC и его продолжения теперь оказываются решаемыми с помощью инженерных решений, свидетельствует о смещении трендов в индустрии: технологии тест‑времени адаптации и решения задач на лету становятся важнее традиционных стратегий масштабирования моделей.