217 подписчиков

🧠 Искусственный интеллект против человека: что нового в тесте ARC-AGI-2?

25 марта 202525 мар 2025

3 мин

Идея искусственного общего интеллекта (AGI) будоражит воображение не только футуристов и фантастов, но и серьёзных учёных, которые стремятся понять пределы возможностей ИИ. Важным шагом на этом пути является новый бенчмарк ARC-AGI-2, недавно запущенный проектом ARC Prize. Чем же уникален этот тест, и почему так трудно приблизиться к настоящему общему интеллекту? Сегодня множество ИИ легко обыгрывают человека в узких задачах: шахматы, го, медицинская диагностика и распознавание изображений. Но общий интеллект подразумевает нечто иное — умение решать совершенно новые задачи, с которыми раньше система никогда не сталкивалась. И тут начинается самое интересное: Задачи ARC-AGI-2 основаны на трёх главных вызовах, которые так и не покорились даже самым продвинутым нейросетям: ARC-AGI-2 представлен в нескольких наборах данных: При подготовке ARC-AGI-2 исследователи провели масштабное тестирование на более чем 400 добровольцах, чтобы подтвердить стабильность и естественность задач для людей. Гл

Оглавление

🧩 Почему именно ARC-AGI-2?
🚩 Чем труден новый бенчмарк?
⚙️ Техническая реализация и тестирование

Чем же уникален этот тест, и почему так трудно приблизиться к настоящему общему интеллекту?

🧩 Почему именно ARC-AGI-2?

Сегодня множество ИИ легко обыгрывают человека в узких задачах: шахматы, го, медицинская диагностика и распознавание изображений. Но общий интеллект подразумевает нечто иное — умение решать совершенно новые задачи, с которыми раньше система никогда не сталкивалась. И тут начинается самое интересное:

🔹 Ноль процентов успеха
Современные модели чистых языковых моделей (например, GPT-4.5) не способны решить ни одной задачи из ARC-AGI-2. Более того, лучшие существующие ИИ-системы едва достигают 4% успеха. Для сравнения, люди справляются с теми же заданиями практически без ошибок и почти мгновенно.
🔸 Двойной вызов
Каждая задача из ARC-AGI-2 проверялась на людях: по крайней мере два человека должны были решить её максимум за две попытки. Такой подход подчёркивает, что задания не требуют сверхспособностей — они естественны и просты для людей, но непреодолимы для ИИ.

🚩 Чем труден новый бенчмарк?

Задачи ARC-AGI-2 основаны на трёх главных вызовах, которые так и не покорились даже самым продвинутым нейросетям:

🌀 Символическая интерпретация
ИИ умеют распознавать визуальные паттерны, но пока не способны придавать символам осмысленное значение вне их внешнего вида. Человек легко воспринимает смысл знаков (например, математических), ИИ же видит лишь картинки, с трудом переводя их в идеи.
🔗 Композиционное рассуждение
Системы ИИ испытывают серьёзные трудности, когда необходимо одновременно применять несколько правил или когда правила взаимодействуют друг с другом. Люди делают это естественно, почти не задумываясь.
🎯 Контекстное применение правил
Если правила меняются в зависимости от контекста задачи, ИИ теряются, стараясь применять выученные шаблоны. Люди же быстро адаптируются и переключаются на новый подход.

⚙️ Техническая реализация и тестирование

ARC-AGI-2 представлен в нескольких наборах данных:

📚 Обучающий набор (1000 задач) — задачи разной сложности, формирующие базовые навыки.
🔍 Публичный набор (120 задач) — открытый набор для самостоятельного тестирования.
🔐 Полуприватный и Приватный наборы (по 120 задач) — для финальной проверки решений в конкурсе на Kaggle.

При подготовке ARC-AGI-2 исследователи провели масштабное тестирование на более чем 400 добровольцах, чтобы подтвердить стабильность и естественность задач для людей.

💡 Идеи важнее вычислений

Главная идея нового этапа ARC Prize — стимулировать появление принципиально новых подходов. Организаторы подчёркивают, что нынешние ИИ «перегреты» вычислениями: они требуют огромных ресурсов и при этом не демонстрируют настоящей способности к гибкому мышлению. Ключевой показатель — это не только результат, но и его эффективность.

Именно поэтому каждая модель оценивается ещё и по стоимости выполнения задачи. Например, если человек справляется с задачей ARC-AGI-2 в среднем за $17, то лучшие современные ИИ тратят сотни долларов на решение одной и той же проблемы.

🏆 Миллион за прорыв — конкурс ARC Prize 2025 уже стартовал!

В этом году ARC Prize выделяет $1,000,000 на поощрение лучших решений и новых идей, способных приблизить нас к AGI:

💰 Главный приз ($700K) — первому, кто преодолеет 85%-ный барьер.
🥇 За лучший результат ($75K) — лидеру общего зачёта.
📑 За самую инновационную идею ($50K) — даже если решение не даст максимального результата, важен качественный прорыв.
🎁 Дополнительные призы ($175K) — подробности объявят позже в течение конкурса.

📈 Зачем это всё нам?

На фоне развития технологий мы неизбежно столкнёмся с вопросом о том, что же такое настоящий интеллект. ARC-AGI-2 — это не только тест для машин, но и зеркало, в котором мы можем рассмотреть и себя. Понимание слабых мест ИИ поможет нам создать системы, способные не только выигрывать в играх, но и решать повседневные проблемы человечества с минимальными затратами и максимальной эффективностью.

Сложность ARC-AGI-2 — это не препятствие, а приглашение к совместному творчеству. Возможно, следующий прорыв в области общего искусственного интеллекта совершите именно вы.

🔗 Источники и полезные ссылки: