Логично, что ИИ легко решает то, что видели и что попало в их обучающую выборку. ARC-AGI же проверяет умение моделей учиться и адаптироваться сходу. По итогам теста из 135+ мини-игр результаты неутешительные: люди решают почти 100% задач, а вот модели меньше 1%. Порешать и самоутвердиться перед железяками можно тут.🍺
Я все еще в чем-то лучше ИИ — вышел обновленный бенчмарк ARC-AGI-3, который показал одну из главных проблем моделей
26 марта26 мар
19
~1 мин