Официальный анонс бенчмарка ARC-AGI-3 зафиксировал критический разрыв между человеческим интеллектом и современными нейросетями. В условиях, где обычные люди показывают 100% результат, топовые модели (включая Gemini 3.1 и GPT-5.4) не смогли преодолеть даже 1%. В отличие от стандартных тестов, которые оценивают накопленные в процессе обучения знания, ARC-AGI-3 проверяет способность ИИ адаптироваться к абсолютно незнакомой среде без предварительной базы. Это проверка умения строить гипотезы с нуля и гибко менять их в зависимости от ситуации. Тестирование выявило фундаментальные ограничения текущих архитектур: — ИИ не может осознать контекст происходящего и выстроить логическую цепочку действий. — Модели склонны фанатично придерживаться своей первой (часто ошибочной) гипотезы, не имея возможности пересмотреть её при изменении условий. — Нейросети по-прежнему не способны эффективно предсказывать развитие событий в нестандартных сценариях. ARC-AGI-3 становится новым золотым стандартом
ARC-AGI-3: новый бенчмарк, который не прошли GPT-5.4 и Gemini 3.1
30 марта30 мар
11
1 мин