Бенчмарк ARC (Abstraction and Reasoning Corpus), долгое время считавшийся одной из самых сложных проверок абстрактного мышления для ИИ, оказался ещё одной «жертвой» оптимизации и инженерных ухищрений в индустрии ИИ. По данным аналитиков и свежим результатам стартапа Poetiq, современные системы на базе больших моделей, включая GPT‑5.2 X‑High, показали до 75% точности на ARC‑AGI‑2, что выше средней оценки человека на этих задачах. Изначально ARC создавался для измерения истинного обобщающего интеллекта, а не простого запоминания статистики или шаблонов. Его особенность заключалась в том, что задачи требуют абстрактного рассуждения и понимания закономерностей, чего именно не хватает многим большим языковым моделям. Однако последние успехи продемонстрировали, что инженерные стратегии, такие как усовершенствованные промпты, генерация кода и итеративное самокорректирование, позволяют системам достигать очень высоких результатов, превращая ARC из лабораторного испытания в оптимизационный тарг
ARC: ИИ превзошел человека в тесте на абстрактное мышление
27 декабря 202527 дек 2025
2 мин