Найти в Дзене
Цифровая Переплавка

🎮🤖 Когда ИИ играет в игры: Почему Baba is You ставит модели в тупик?

В мире искусственного интеллекта постоянно появляются новые задачи и бенчмарки, направленные на проверку способностей современных моделей. И хотя кажется, что нейросети уже легко обыгрывают людей в шахматы, Go или даже StarCraft, некоторые задачи, на первый взгляд простые для человека, превращаются в настоящее испытание даже для самых продвинутых мультимодальных моделей. Одна из таких неожиданных проблем — популярная инди-игра «Baba is You». 🧩 Что делает Baba is You таким сложным вызовом? На первый взгляд «Baba is You» выглядит забавно и даже мило: маленький персонаж Баба перемещается по уровню, толкая слова, составляющие правила игры. Но за простой графикой и минималистичным дизайном скрывается глубокий и сложный игровой процесс, который требует умения: Оказывается, эти задачи требуют от модели не просто распознавания и генерации текста, а умения мыслить нелинейно и одновременно следить за множеством взаимосвязей. ⚙️ Как превратили игру в бенчмарк «Baba is Eval»? Разработчики проекта
Пиксель-арт показывает героя Бабу, стоящего на клеточном поле-головоломке, в окружении парящих символов нейросетей и микросхем — визуальный образ того, как игру «Baba Is You» используют для тестирования ИИ-моделей.
Пиксель-арт показывает героя Бабу, стоящего на клеточном поле-головоломке, в окружении парящих символов нейросетей и микросхем — визуальный образ того, как игру «Baba Is You» используют для тестирования ИИ-моделей.

В мире искусственного интеллекта постоянно появляются новые задачи и бенчмарки, направленные на проверку способностей современных моделей. И хотя кажется, что нейросети уже легко обыгрывают людей в шахматы, Go или даже StarCraft, некоторые задачи, на первый взгляд простые для человека, превращаются в настоящее испытание даже для самых продвинутых мультимодальных моделей. Одна из таких неожиданных проблем — популярная инди-игра «Baba is You».

🧩 Что делает Baba is You таким сложным вызовом?

На первый взгляд «Baba is You» выглядит забавно и даже мило: маленький персонаж Баба перемещается по уровню, толкая слова, составляющие правила игры. Но за простой графикой и минималистичным дизайном скрывается глубокий и сложный игровой процесс, который требует умения:

  • 🧠 Абстрактно мыслить: Менять и перестраивать правила прямо по ходу уровня.
  • 🚧 Понимать препятствия: Видеть неочевидные блокировки и обходить их.
  • 📈 Планировать действия: Последовательно выстраивать ходы, учитывая последствия каждого шага.

Оказывается, эти задачи требуют от модели не просто распознавания и генерации текста, а умения мыслить нелинейно и одновременно следить за множеством взаимосвязей.

Игра Baba is You. Источник: https://fi-le.net/baba/
Игра Baba is You. Источник: https://fi-le.net/baba/

⚙️ Как превратили игру в бенчмарк «Baba is Eval»?

Разработчики проекта Baba is Eval сумели адаптировать игру, чтобы использовать её в качестве тестовой среды для оценки способностей ИИ. Вместо того чтобы просто заставить модель «смотреть» на экран, они подключили её напрямую к игровому движку:

  • 📜 Использовали Lua-скрипты, которыми написана игра, для непосредственного извлечения состояния уровня.
  • 🖥️ Настроили MCP-сервер на Python для обмена данными между игрой и языковыми моделями, преобразовывая игровое состояние в текстовый формат.
  • 🎯 Организовали простую, но эффективную систему ввода, позволяющую модели отправлять команды (вверх, вниз, влево, вправо и отмена).

Однако, хотя всё это выглядело перспективно, результаты были далеки от ожиданий.

🤷‍♂️ Почему Claude 4 не справляется?

Когда в бой вступила модель Claude 4, стало понятно, что не все задачи по зубам современным мультимодальным моделям:

  • 🌀 Claude 4 терялся даже в простых головоломках, испытывая трудности с планированием и контролем над правилами.
  • 🔄 Постоянно путался в том, что разрешено, а что нет, забывая ключевые моменты уровня.
  • 🚨 Испытывал проблемы с распознаванием тупиковых путей и ситуаций, в которых нужно было отменить ход.

Это стало яркой демонстрацией тезиса Франсуа Шолле о том, что даже мощные языковые модели могут быть совершенно беспомощны перед задачами, требующими гибкости и адаптивного планирования. Авторы Baba is Eval даже были вынуждены «подделать» успешное прохождение одного из уровней, вручную подсказывая Claude 4 каждое действие.

🚀 Что дальше? Надежды на модель o3

Разработчики предполагают, что более продвинутые модели, такие как o3, могут справиться лучше. Им может помочь:

  • 🎭 Лучшая система управления контекстом, чтобы модель не перегружалась информацией.
  • 🗃️ Компактное кодирование игрового состояния, специально адаптированное для токенизации и восприятия моделями.
  • 🗺️ Абстракция входных данных, когда модель управляет не просто отдельными шагами, а целыми логическими действиями.

💡 Авторская точка зрения

На мой взгляд, превращение игр в полноценные бенчмарки — отличная практика, ведь именно игры максимально приближены к «человеческому» восприятию задач. Если ИИ научится решать головоломки вроде Baba is You, ему будут по плечу гораздо более сложные задачи реального мира. Особенно интересно, что решение проблемы лежит не просто в усилении вычислительных мощностей, а именно в качественной трансформации способов мышления моделей.

Сегодня Baba is Eval показывает нам не просто слабость конкретной модели Claude 4, а скорее указывает на важные направления развития искусственного интеллекта. Ведь умение гибко думать и адаптироваться к постоянно меняющимся условиям — именно те качества, которые делают человека уникальным. Если машины научатся хотя бы частично им подражать, перед нами откроются совершенно новые горизонты.

🔗 Ссылки по теме: