31 подписчик

Lumine: ИИ-агент, который играет как человек.

7 января7 янв

4 мин

Сегодня хотелось бы поговорить о еще одной занимательной способности ИИ — визуальное восприятие. В декабре 2025 года искусственный интеллект научился не просто побеждать в шахматы или решать головоломки. Он сел играть в любимую вами игру. Не используя коды, читы или доступ к внутренностям игры, а глядя на экран, как обычный геймер, и нажимая клавиши мыши и клавиатуры. Этот агент — Lumine, детище команды ByteDance. И его способности выходят далеко за рамки простого бота. Представьте напарника, который не просто атакует врагов, а самостоятельно проходит многочасовые сюжетные линии, решает пространственные головоломки, ведёт диалоги с NPC и адаптируется к новым, незнакомым мирам. Lumine — это именно такой «универсальный агент» (generalist agent). Его ключевые достижения звучат как фантастика: Вот как выглядят его результаты в разных играх: ИграЗадачаВремя выполненияКлючевой фактGenshin ImpactСюжет Мондштадта (3 акта)~5 часовЭффективность на уровне человекаGenshin ImpactИсследование регион

Оглавление

Не игрок, а партнёр: что может Lumine?
Как это работает? Магия — в простоте подхода
Три этапа обучения: от ученика до мастера

Сегодня хотелось бы поговорить о еще одной занимательной способности ИИ — визуальное восприятие.

В декабре 2025 года искусственный интеллект научился не просто побеждать в шахматы или решать головоломки. Он сел играть в любимую вами игру. Не используя коды, читы или доступ к внутренностям игры, а глядя на экран, как обычный геймер, и нажимая клавиши мыши и клавиатуры. Этот агент — Lumine, детище команды ByteDance. И его способности выходят далеко за рамки простого бота.

Не игрок, а партнёр: что может Lumine?

Представьте напарника, который не просто атакует врагов, а самостоятельно проходит многочасовые сюжетные линии, решает пространственные головоломки, ведёт диалоги с NPC и адаптируется к новым, незнакомым мирам. Lumine — это именно такой «универсальный агент» (generalist agent).

Его ключевые достижения звучат как фантастика:

В Genshin Impact: Полностью прошёл трёхактную сюжетную линию региона Мондштадт, что у опытного игрока занимает около 5 часов. Причём рассуждениям его учили только на первом акте, а остальное он освоил сам. Без дополнительного обучения добрался до нового региона Лиюэ и продвинулся по тамошнему сюжету.
В Honkai: Star Rail: Прошёл всю первую главу на космической станции Герты, потратив на это более 7 часов.
В Wuthering Waves: Справился с полуторачасовым отрезком основного сюжета.

Вот как выглядят его результаты в разных играх:

ИграЗадачаВремя выполненияКлючевой фактGenshin ImpactСюжет Мондштадта (3 акта)~5 часовЭффективность на уровне человекаGenshin ImpactИсследование региона ЛиюэПройдена начальная миссияРегион не был частью обучающих данныхHonkai: Star RailГлава на станции Герта~7 часов 18 минНулевое дополнительное обучениеWuthering WavesОтрезок основного сюжета~1 час 46 минНулевое дополнительное обучение

Как это работает? Магия — в простоте подхода

Секрет Lumine не в том, что он взломал код игр. Напротив, он взаимодействует с ними так же, как и вы.

Он видит мир вашими глазами. Его «зрение» — это визуально-языковая модель Qwen2-VL-7B. Каждые 200 миллисекунд она анализирует сырой видеопоток с экрана (разрешением 1280×720), воспринимая интерфейс, мир и объекты.
Он думает, когда это нужно. Вместо постоянного и медленного «размышления» Lumine использует гибридную стратегию. В рутинных ситуациях (бег, бой) он действует быстро. Но на развилке сюжета или перед сложной головоломкой агент генерирует внутренний монолог — короткий план, который помогает принимать долгосрочные решения.
Он действует вашими руками. Модель не выдаёт команды движку игры, а авторегрессионно генерирует текстовые описания нажатий клавиш и движений мыши с частотой 30 Гц. Эти описания затем преобразуются в реальные действия. Так он может прицеливаться, взаимодействовать с меню и решать головоломки.

Три этапа обучения: от ученика до мастера

Создание такого агента потребовало титанической работы и ресурсов. Обучение стоило, по некоторым оценкам, более 2 миллионов долларов и заняло 64 графических процессора H100. Весь процесс был разбит на три ключевых этапа:

Имитация (1731 час): Lumine смотрел тысячи часов «чистого» геймплея людей, обучаясь базовым примитивам действий: движению, бою, взаимодействию с объектами.
Следование инструкциям (200 часов): Агент учился понимать и выполнять команды на естественном языке, например, «победи врагов впереди и открой сундук».
Рассуждение (15 часов): На небольшом, но тщательно размеченном наборе данных модель училась генерировать те самые внутренние планы, которые позволяют ей справляться с многоходовыми задачами.

Почему Lumine — это прорыв, а не просто «чит»?

Lumine принципиально отличается от предыдущих игровых ИИ, таких как AlphaStar для StarCraft или боты для Dota 2.

Универсальность, а не специализация. Раньше ИИ создавался под одну конкретную игру. Lumine же демонстрирует кросс-игровую адаптацию (zero-shot generalization). Навыки навигации, боя и взаимодействия с интерфейсом, полученные в Genshin, он смог применить в других играх.
Человеческий интерфейс. Он не требует от разработчиков игр предоставления специального API. Агент работает с любым приложением через визуальный ввод и эмуляцию устройств ввода, что делает его потенциально совместимым с тысячами игр.
Шаг к искусственному общему интеллекту (ИОИ/AGI). Сложные 3D-миры — идеальный полигон для тренировки ИИ. Здесь требуется восприятие, пространственное мышление, долгосрочное планирование и композиция навыков — те же самые способности, которые нужны роботу в реальном мире. Lumine доказывает, что создание агентов, способных понимать и действовать в сложных, непредсказуемых средах, — это не научная фантастика, а конкретная инженерная задача.

Что дальше? Будущее, в котором ИИ — часть игр

Появление таких агентов, как Lumine и его аналог от Google — SIMA 2, открывает новые горизонты для всей индустрии:

Революция в тестировании игр. Представьте ИИ-тестера, который может 24/7 исследовать огромный открытый мир, находить сложные баги и проверять баланс.
Умные NPC и динамический контент. В будущем NPC могли бы не зачитывать скрипты, а обладать «внутренней жизнью» на основе подобных моделей, адаптируясь к действиям игрока.
Инструмент для разработчиков. Технология может стать основой для ассистентов, которые помогают дизайнерам создавать уровни или проверять игровую логику.

Безусловно, эта технология поднимает сложные вопросы о честной игре и будущем киберспорта. Однако, как и в случае с DeepBlue или AlphaGo, её истинное значение лежит глубже развлечений. Lumine — это яркая демонстрация того, что ИИ учится не просто вычислять, а понимать контекст и действовать в сложных, открытых мирах. И этот навык однажды может выйти далеко за пределы наших мониторов.

P.S. напишите в комментариях что вы думаете по этому поводу. Ведь ИИ и который видит и осознает... ему не хватает тела...