Найти в Дзене
Нейрозона сегодня

ARC-AGI-2: Шолле о результатах Poetiq и будущем бенчмарка

Создатель бенчмарка ARC-AGI-2, Франсуа Шолле, прокомментировал результаты стартапа Poetiq, который с помощью GPT-5.2 X-High показал 75% в тесте, в то время как средний результат людей составил 60%. Шолле подчеркнул, что ARC-AGI-2 – это не критерий для определения AGI, а скорее инструмент для направления исследований. По словам Шолле, ARC-AGI-1 (2019) проверял способность к адаптации к новым задачам. ARC-AGI-2, выпущенный в марте 2025 года, усложнил задачу, но остается доступным для решения человеком без специальных инструментов. В марте 2026 года ожидается выпуск ARC-AGI-3, который изменит формат тестирования. ИИ должен будет самостоятельно исследовать среду, строить модели, ставить и достигать целей без внешних инструкций. Разработка ARC-AGI-4 и ARC-AGI-5 уже ведется. Результат Poetiq вызвал преждевременные заявления о “решении” бенчмарка. Шолле напомнил, что успешное прохождение теста не равно пониманию его сути. ARC-AGI-3 станет новым этапом в оценке прогресса ИИ в направлении общей

Создатель бенчмарка ARC-AGI-2, Франсуа Шолле, прокомментировал результаты стартапа Poetiq, который с помощью GPT-5.2 X-High показал 75% в тесте, в то время как средний результат людей составил 60%. Шолле подчеркнул, что ARC-AGI-2 – это не критерий для определения AGI, а скорее инструмент для направления исследований.

По словам Шолле, ARC-AGI-1 (2019) проверял способность к адаптации к новым задачам. ARC-AGI-2, выпущенный в марте 2025 года, усложнил задачу, но остается доступным для решения человеком без специальных инструментов.

В марте 2026 года ожидается выпуск ARC-AGI-3, который изменит формат тестирования. ИИ должен будет самостоятельно исследовать среду, строить модели, ставить и достигать целей без внешних инструкций. Разработка ARC-AGI-4 и ARC-AGI-5 уже ведется.

Результат Poetiq вызвал преждевременные заявления о “решении” бенчмарка. Шолле напомнил, что успешное прохождение теста не равно пониманию его сути. ARC-AGI-3 станет новым этапом в оценке прогресса ИИ в направлении общей разумности.