Сегодня хотелось бы поговорить о еще одной занимательной способности ИИ — визуальное восприятие.
В декабре 2025 года искусственный интеллект научился не просто побеждать в шахматы или решать головоломки. Он сел играть в любимую вами игру. Не используя коды, читы или доступ к внутренностям игры, а глядя на экран, как обычный геймер, и нажимая клавиши мыши и клавиатуры. Этот агент — Lumine, детище команды ByteDance. И его способности выходят далеко за рамки простого бота.
Не игрок, а партнёр: что может Lumine?
Представьте напарника, который не просто атакует врагов, а самостоятельно проходит многочасовые сюжетные линии, решает пространственные головоломки, ведёт диалоги с NPC и адаптируется к новым, незнакомым мирам. Lumine — это именно такой «универсальный агент» (generalist agent).
Его ключевые достижения звучат как фантастика:
- В Genshin Impact: Полностью прошёл трёхактную сюжетную линию региона Мондштадт, что у опытного игрока занимает около 5 часов. Причём рассуждениям его учили только на первом акте, а остальное он освоил сам. Без дополнительного обучения добрался до нового региона Лиюэ и продвинулся по тамошнему сюжету.
- В Honkai: Star Rail: Прошёл всю первую главу на космической станции Герты, потратив на это более 7 часов.
- В Wuthering Waves: Справился с полуторачасовым отрезком основного сюжета.
Вот как выглядят его результаты в разных играх:
ИграЗадачаВремя выполненияКлючевой фактGenshin ImpactСюжет Мондштадта (3 акта)~5 часовЭффективность на уровне человекаGenshin ImpactИсследование региона ЛиюэПройдена начальная миссияРегион не был частью обучающих данныхHonkai: Star RailГлава на станции Герта~7 часов 18 минНулевое дополнительное обучениеWuthering WavesОтрезок основного сюжета~1 час 46 минНулевое дополнительное обучение
Как это работает? Магия — в простоте подхода
Секрет Lumine не в том, что он взломал код игр. Напротив, он взаимодействует с ними так же, как и вы.
- Он видит мир вашими глазами. Его «зрение» — это визуально-языковая модель Qwen2-VL-7B. Каждые 200 миллисекунд она анализирует сырой видеопоток с экрана (разрешением 1280×720), воспринимая интерфейс, мир и объекты.
- Он думает, когда это нужно. Вместо постоянного и медленного «размышления» Lumine использует гибридную стратегию. В рутинных ситуациях (бег, бой) он действует быстро. Но на развилке сюжета или перед сложной головоломкой агент генерирует внутренний монолог — короткий план, который помогает принимать долгосрочные решения.
- Он действует вашими руками. Модель не выдаёт команды движку игры, а авторегрессионно генерирует текстовые описания нажатий клавиш и движений мыши с частотой 30 Гц. Эти описания затем преобразуются в реальные действия. Так он может прицеливаться, взаимодействовать с меню и решать головоломки.
Три этапа обучения: от ученика до мастера
Создание такого агента потребовало титанической работы и ресурсов. Обучение стоило, по некоторым оценкам, более 2 миллионов долларов и заняло 64 графических процессора H100. Весь процесс был разбит на три ключевых этапа:
- Имитация (1731 час): Lumine смотрел тысячи часов «чистого» геймплея людей, обучаясь базовым примитивам действий: движению, бою, взаимодействию с объектами.
- Следование инструкциям (200 часов): Агент учился понимать и выполнять команды на естественном языке, например, «победи врагов впереди и открой сундук».
- Рассуждение (15 часов): На небольшом, но тщательно размеченном наборе данных модель училась генерировать те самые внутренние планы, которые позволяют ей справляться с многоходовыми задачами.
Почему Lumine — это прорыв, а не просто «чит»?
Lumine принципиально отличается от предыдущих игровых ИИ, таких как AlphaStar для StarCraft или боты для Dota 2.
- Универсальность, а не специализация. Раньше ИИ создавался под одну конкретную игру. Lumine же демонстрирует кросс-игровую адаптацию (zero-shot generalization). Навыки навигации, боя и взаимодействия с интерфейсом, полученные в Genshin, он смог применить в других играх.
- Человеческий интерфейс. Он не требует от разработчиков игр предоставления специального API. Агент работает с любым приложением через визуальный ввод и эмуляцию устройств ввода, что делает его потенциально совместимым с тысячами игр.
- Шаг к искусственному общему интеллекту (ИОИ/AGI). Сложные 3D-миры — идеальный полигон для тренировки ИИ. Здесь требуется восприятие, пространственное мышление, долгосрочное планирование и композиция навыков — те же самые способности, которые нужны роботу в реальном мире. Lumine доказывает, что создание агентов, способных понимать и действовать в сложных, непредсказуемых средах, — это не научная фантастика, а конкретная инженерная задача.
Что дальше? Будущее, в котором ИИ — часть игр
Появление таких агентов, как Lumine и его аналог от Google — SIMA 2, открывает новые горизонты для всей индустрии:
- Революция в тестировании игр. Представьте ИИ-тестера, который может 24/7 исследовать огромный открытый мир, находить сложные баги и проверять баланс.
- Умные NPC и динамический контент. В будущем NPC могли бы не зачитывать скрипты, а обладать «внутренней жизнью» на основе подобных моделей, адаптируясь к действиям игрока.
- Инструмент для разработчиков. Технология может стать основой для ассистентов, которые помогают дизайнерам создавать уровни или проверять игровую логику.
Безусловно, эта технология поднимает сложные вопросы о честной игре и будущем киберспорта. Однако, как и в случае с DeepBlue или AlphaGo, её истинное значение лежит глубже развлечений. Lumine — это яркая демонстрация того, что ИИ учится не просто вычислять, а понимать контекст и действовать в сложных, открытых мирах. И этот навык однажды может выйти далеко за пределы наших мониторов.
P.S. напишите в комментариях что вы думаете по этому поводу. Ведь ИИ и который видит и осознает... ему не хватает тела...