В последние годы мир восхищается возможностями моделей, объединяющих зрение и язык (Vision-Language Models, VLM). Эти системы уже доказали свою силу в программировании, математических задачах и ответах на сложные вопросы. Но способны ли они справиться с тем, что для людей кажется простым и естественным — играть в видеоигры? Эту интригующую задачу решили исследовать учёные из Принстонского университета, предложив уникальный бенчмарк VideoGameBench, который проверяет способности моделей на популярных играх эпохи 90-х годов.
📺 Почему именно игры 90-х?
Игры 90-х (32-битная эра) выбраны не случайно. Они были созданы так, чтобы любой человек мог интуитивно разобраться и начать играть практически сразу. Эти игры включают в себя широкий спектр навыков, которые людям даются легко, а искусственному интеллекту — сложно:
- 👀 Зрительное восприятие: распознавать объекты и препятствия.
- 🗺️ Пространственная навигация: перемещаться по уровням и лабиринтам.
- 🧠 Управление памятью: помнить уже пройденные места и решённые задачи.
- 🕹️ Реакция в реальном времени: быстро реагировать на изменения обстановки.
Именно поэтому игры стали идеальной площадкой для испытаний.
🕹️ Что такое VideoGameBench и в чём его новизна?
VideoGameBench – это набор из 10 известных игр (7 публичных и 3 секретных) с платформ Game Boy и MS-DOS. Среди игр, например:
- Kirby’s Dream Land
- The Legend of Zelda: Link’s Awakening
- Pokémon Crystal
- Doom II
- The Incredible Machine
Модели должны проходить эти игры, опираясь исключительно на визуальные данные (кадры из игры) и простое описание управления и целей. Никакой предварительной подготовки, специальных подсказок или внутренней информации об игре модели не получают.
Технически это реализовано следующим образом:
- 🖥️ Эмуляторы игр (например, PyBoy для Game Boy и DOSBox для DOS-игр) запускают игры.
- 📸 Перцептивный хешинг (perceptual hashing) используется для определения прогресса по контрольным точкам в играх (например, прохождение уровня или важного события). Из YouTube-видео с прохождениями извлекаются кадры-контрольные точки, с которыми модель сравнивает текущий экран игры.
- 🧩 Режим «Lite» позволяет модели делать паузы и думать столько, сколько нужно, устраняя проблему медленной реакции нейросетей.
🧑💻 Результаты: на что способны современные модели?
Результаты испытаний моделей оказались неутешительными. Лучшая из протестированных моделей, Gemini 2.5 Pro, смогла пройти всего лишь 0,48% от общего прогресса VideoGameBench и 1,6% в облегчённом режиме Lite. Остальные модели (GPT-4o, Sonnet 3.7, Gemini 2.0 Flash, LLaMA 4) показали ещё худшие результаты, чаще всего не доходя даже до первой контрольной точки.
Почему же современные нейросети так плохо справляются?
- 🐢 Проблема скорости реакции: модели слишком медленно принимают решения, поэтому их действия устаревают к моменту исполнения.
- 🚧 Разрыв между «знаю» и «делаю»: даже если модель понимает, что нужно делать (например, «выйти из комнаты вниз»), она не всегда выполняет это корректно, застревая на простых действиях.
- 🎯 Ошибки восприятия: модели неправильно распознают игровые ситуации, например, продолжают атаковать уже побеждённых противников или игнорируют ключевые объекты.
- 🗂️ Плохое управление памятью: модели быстро «забывают» важные детали, что ведёт к бесконечным повторениям одних и тех же действий без прогресса.
💡 Авторское мнение: почему это важно и что дальше?
Исследование показало, насколько велика пропасть между абстрактными задачами (например, решение математических головоломок) и интуитивными, присущими человеку задачами вроде видеоигр. Модели превосходно справляются с логикой, но теряются в ситуациях, требующих быстрой реакции, пространственного понимания и памяти.
На мой взгляд, VideoGameBench — это уникальный инструмент, который поможет понять реальные пределы возможностей современных нейросетей и выявить направления для будущих исследований. Если мы хотим создать искусственный интеллект, способный полноценно взаимодействовать с окружающим миром, игры могут стать лучшим тренажёром для его обучения.
Кроме того, меня особенно впечатлила методика автоматического определения прогресса на основе перцептивного хешинга. Эта технология может существенно упростить создание и поддержку будущих бенчмарков и соревнований.
Я убеждён, что прорыв в подобных задачах станет ключом к появлению систем, которые не просто впечатляют своей способностью решать абстрактные задачи, но и смогут ориентироваться в сложном, изменчивом и насыщенном событиями мире — точно так же, как это делает человек.
🔗 Источники и полезные ссылки:
🌟 Таким образом, игры 90-х оказались не просто ностальгическим развлечением, а серьёзным вызовом для искусственного интеллекта. Будет интересно следить, как быстро модели научатся играть не хуже человека, а пока что люди остаются непревзойдёнными мастерами в интуитивных задачах!