Найти в Дзене
Цифровая Переплавка

🎮 ИИ проходит тест на интуитивность: могут ли нейросети играть в видеоигры 90-х годов?

В последние годы мир восхищается возможностями моделей, объединяющих зрение и язык (Vision-Language Models, VLM). Эти системы уже доказали свою силу в программировании, математических задачах и ответах на сложные вопросы. Но способны ли они справиться с тем, что для людей кажется простым и естественным — играть в видеоигры? Эту интригующую задачу решили исследовать учёные из Принстонского университета, предложив уникальный бенчмарк VideoGameBench, который проверяет способности моделей на популярных играх эпохи 90-х годов. Игры 90-х (32-битная эра) выбраны не случайно. Они были созданы так, чтобы любой человек мог интуитивно разобраться и начать играть практически сразу. Эти игры включают в себя широкий спектр навыков, которые людям даются легко, а искусственному интеллекту — сложно: Именно поэтому игры стали идеальной площадкой для испытаний. VideoGameBench – это набор из 10 известных игр (7 публичных и 3 секретных) с платформ Game Boy и MS-DOS. Среди игр, например: Модели должны прохо
Оглавление
Неоновый ретро-кабинет: старый CRT-монитор с пиксельной игрой и крошечной полоской прогресса окружён Game Boy, джойстиком и мини-ботами-VLM; над всем парит светящийся «мозг» ИИ и кубики с вопросами — визуальный образ испытания VideoGameBench, где модели пока делают лишь первые шаги.
Неоновый ретро-кабинет: старый CRT-монитор с пиксельной игрой и крошечной полоской прогресса окружён Game Boy, джойстиком и мини-ботами-VLM; над всем парит светящийся «мозг» ИИ и кубики с вопросами — визуальный образ испытания VideoGameBench, где модели пока делают лишь первые шаги.

В последние годы мир восхищается возможностями моделей, объединяющих зрение и язык (Vision-Language Models, VLM). Эти системы уже доказали свою силу в программировании, математических задачах и ответах на сложные вопросы. Но способны ли они справиться с тем, что для людей кажется простым и естественным — играть в видеоигры? Эту интригующую задачу решили исследовать учёные из Принстонского университета, предложив уникальный бенчмарк VideoGameBench, который проверяет способности моделей на популярных играх эпохи 90-х годов.

📺 Почему именно игры 90-х?

Игры 90-х (32-битная эра) выбраны не случайно. Они были созданы так, чтобы любой человек мог интуитивно разобраться и начать играть практически сразу. Эти игры включают в себя широкий спектр навыков, которые людям даются легко, а искусственному интеллекту — сложно:

  • 👀 Зрительное восприятие: распознавать объекты и препятствия.
  • 🗺️ Пространственная навигация: перемещаться по уровням и лабиринтам.
  • 🧠 Управление памятью: помнить уже пройденные места и решённые задачи.
  • 🕹️ Реакция в реальном времени: быстро реагировать на изменения обстановки.

Именно поэтому игры стали идеальной площадкой для испытаний.

🕹️ Что такое VideoGameBench и в чём его новизна?

VideoGameBench – это набор из 10 известных игр (7 публичных и 3 секретных) с платформ Game Boy и MS-DOS. Среди игр, например:

  • Kirby’s Dream Land
  • The Legend of Zelda: Link’s Awakening
  • Pokémon Crystal
  • Doom II
  • The Incredible Machine

Модели должны проходить эти игры, опираясь исключительно на визуальные данные (кадры из игры) и простое описание управления и целей. Никакой предварительной подготовки, специальных подсказок или внутренней информации об игре модели не получают.

Технически это реализовано следующим образом:

  • 🖥️ Эмуляторы игр (например, PyBoy для Game Boy и DOSBox для DOS-игр) запускают игры.
  • 📸 Перцептивный хешинг (perceptual hashing) используется для определения прогресса по контрольным точкам в играх (например, прохождение уровня или важного события). Из YouTube-видео с прохождениями извлекаются кадры-контрольные точки, с которыми модель сравнивает текущий экран игры.
  • 🧩 Режим «Lite» позволяет модели делать паузы и думать столько, сколько нужно, устраняя проблему медленной реакции нейросетей.

🧑‍💻 Результаты: на что способны современные модели?

Результаты испытаний моделей оказались неутешительными. Лучшая из протестированных моделей, Gemini 2.5 Pro, смогла пройти всего лишь 0,48% от общего прогресса VideoGameBench и 1,6% в облегчённом режиме Lite. Остальные модели (GPT-4o, Sonnet 3.7, Gemini 2.0 Flash, LLaMA 4) показали ещё худшие результаты, чаще всего не доходя даже до первой контрольной точки.

Почему же современные нейросети так плохо справляются?

  • 🐢 Проблема скорости реакции: модели слишком медленно принимают решения, поэтому их действия устаревают к моменту исполнения.
  • 🚧 Разрыв между «знаю» и «делаю»: даже если модель понимает, что нужно делать (например, «выйти из комнаты вниз»), она не всегда выполняет это корректно, застревая на простых действиях.
  • 🎯 Ошибки восприятия: модели неправильно распознают игровые ситуации, например, продолжают атаковать уже побеждённых противников или игнорируют ключевые объекты.
  • 🗂️ Плохое управление памятью: модели быстро «забывают» важные детали, что ведёт к бесконечным повторениям одних и тех же действий без прогресса.

💡 Авторское мнение: почему это важно и что дальше?

Исследование показало, насколько велика пропасть между абстрактными задачами (например, решение математических головоломок) и интуитивными, присущими человеку задачами вроде видеоигр. Модели превосходно справляются с логикой, но теряются в ситуациях, требующих быстрой реакции, пространственного понимания и памяти.

На мой взгляд, VideoGameBench — это уникальный инструмент, который поможет понять реальные пределы возможностей современных нейросетей и выявить направления для будущих исследований. Если мы хотим создать искусственный интеллект, способный полноценно взаимодействовать с окружающим миром, игры могут стать лучшим тренажёром для его обучения.

Кроме того, меня особенно впечатлила методика автоматического определения прогресса на основе перцептивного хешинга. Эта технология может существенно упростить создание и поддержку будущих бенчмарков и соревнований.

Я убеждён, что прорыв в подобных задачах станет ключом к появлению систем, которые не просто впечатляют своей способностью решать абстрактные задачи, но и смогут ориентироваться в сложном, изменчивом и насыщенном событиями мире — точно так же, как это делает человек.

🔗 Источники и полезные ссылки:

🌟 Таким образом, игры 90-х оказались не просто ностальгическим развлечением, а серьёзным вызовом для искусственного интеллекта. Будет интересно следить, как быстро модели научатся играть не хуже человека, а пока что люди остаются непревзойдёнными мастерами в интуитивных задачах!