ARC-AGI-3: новый бенчмарк, который не прошли GPT-5.4 и Gemini 3.1

30 марта30 мар

1 мин

Официальный анонс бенчмарка ARC-AGI-3 зафиксировал критический разрыв между человеческим интеллектом и современными нейросетями. В условиях, где обычные люди показывают 100% результат, топовые модели (включая Gemini 3.1 и GPT-5.4) не смогли преодолеть даже 1%. В отличие от стандартных тестов, которые оценивают накопленные в процессе обучения знания, ARC-AGI-3 проверяет способность ИИ адаптироваться к абсолютно незнакомой среде без предварительной базы. Это проверка умения строить гипотезы с нуля и гибко менять их в зависимости от ситуации. Тестирование выявило фундаментальные ограничения текущих архитектур: — ИИ не может осознать контекст происходящего и выстроить логическую цепочку действий. — Модели склонны фанатично придерживаться своей первой (часто ошибочной) гипотезы, не имея возможности пересмотреть её при изменении условий. — Нейросети по-прежнему не способны эффективно предсказывать развитие событий в нестандартных сценариях. ARC-AGI-3 становится новым золотым стандартом

В отличие от стандартных тестов, которые оценивают накопленные в процессе обучения знания, ARC-AGI-3 проверяет способность ИИ адаптироваться к абсолютно незнакомой среде без предварительной базы. Это проверка умения строить гипотезы с нуля и гибко менять их в зависимости от ситуации.

Тестирование выявило фундаментальные ограничения текущих архитектур:

— ИИ не может осознать контекст происходящего и выстроить логическую цепочку действий.

— Модели склонны фанатично придерживаться своей первой (часто ошибочной) гипотезы, не имея возможности пересмотреть её при изменении условий.

— Нейросети по-прежнему не способны эффективно предсказывать развитие событий в нестандартных сценариях.

ARC-AGI-3 становится новым золотым стандартом в индустрии. Если предыдущие бенчмарки покорялись ИИ за рекордно короткие сроки, то здесь индустрии предстоит решить фундаментальную задачу: научить машины не просто воспроизводить заученное, а мыслить адаптивно. Скорость прогресса в преодолении этого 1% барьера станет главным индикатором реального приближения к уровню AGI.

Проверить себя можно тут (а то вдруг в душе вы ИИ).

@bykorolev

Электроника

81,9 тыс интересуются