Эта статья — для тех, кто уже работает с роботами, RL или VLA (Vision-Language-Action) и чувствует, что текущие подходы упираются в потолок. Я не буду спорить о «как решить AGI для робототехники» — оставлю это долгосрочной дискуссии. Мой фокус прагматичен: какой следующий осмысленный шаг приведёт к масштабируемым и надёжным системам physical AI, которые действительно работают в реальном мире.
Почему VLA стали стандартом
Обучение роботов по своей природе — прикладная область ИИ. Значительная часть прогресса достигается за счёт заимствования компонентов, разработанных в других доменах, и их сборки в системы. Хороший пример — модели Vision-Language-Action (VLA). Сегодня они стали стандартным решением для задач с длинным горизонтом: от секунд до минут.
Типичная VLA-система сочетает:
- vision–language модель, обычно предобученную на описании изображений, QA или следовании инструкциям;
- модель действий, часто в виде «экспертной головы» (например, diffusion policy, обученной с использованием цели flow-matching).
VLA популярны не потому, что это «фундаментально правильный» путь, а потому что они закрывают несколько практических требований для внедрения: доступность моделей, понятный интерфейс «инструкция → действие», хорошие демонстрации на широком наборе задач. Но при этом в них всё ещё отсутствуют критически важные компоненты, если говорить о масштабируемом обучении навыкам.
Чтобы объяснить, чего именно не хватает, начну с простой аналогии.
Аналогия обучения из физического мира
Позвольте приземлить обсуждение на личном опыте.
Несколько лет назад я решил научиться кататься на сноуборде. Я вырос в жарком климате, где зимних видов спорта не было, поэтому для меня это было полностью новым. Прежде чем вообще встать на доску, я посмотрел часы видео о сноубординге. Мне было интересно, можно ли освоить физически сложный и требующий координации навык почти исключительно через наблюдение. Я предполагал, что общая спортивность поможет, и что всё, что нужно, — «понять физику процесса».
Вооружённый YouTube-видео, новым снаряжением и энтузиазмом, я поехал в Сочи. Я встал на доску и тут же упал. И снова. И снова. Я провёл на земле куда больше времени, чем на доске.
В ретроспективе это неудивительно. Я пытался задействовать мышечные группы непривычным образом. Видео показывали, что нужно делать и как выглядит успех, но не показывали как это ощущается и как корректировать ошибки в реальном времени. Они не могли этого показать, потому что эта информация зависит от воплощённости — embodiment.
Во второй раз я записался на занятия для начинающих. Изменения были мгновенными. Я научился держать баланс, получал явную обратную связь о своих ошибках и начал формировать базовое чувство контроля. Я всё ещё часто падал, но теперь значительную часть времени проводил стоя.
Вернувшись домой, я пересмотрел многие из тех же видео. На этот раз они стали куда понятнее. Я начал замечать детали, которые раньше игнорировал, и мог мысленно симулировать движения, опираясь на уже имеющийся физический опыт. Такие концепции, как смещение центра тяжести или управление с помощью задней ноги, перестали быть абстрактными.
На третьей поездке я в основном экспериментировал. У меня было некоторое обучение, частичная «физическая модель» и желание проверять гипотезы. После нескольких падений мне удалось съехать с учебного склона. Я наконец связал действия — конкретные команды телу — с результатами, которые раньше видел только на видео.
Я не хороший сноубордист, и это не руководство по спорту. Но этот опыт даёт полезную систему координат для понимания того, как роботы могут осваивать новые навыки.
Как эта аналогия отображается на обучение роботов
В этой интерпретации:
- инструкции и обратная связь аналогичны imitation learning с плотной супервизией;
- просмотр видео соответствует обучению world model — пониманию того, какие исходы возможны и как в целом ведёт себя мир;
- попытки действовать и сопоставление действий с результатами — это reinforcement learning, основанное на специфичном для воплощения управлении.
Здесь важно уточнение про термин: в этой статье под world model я буду понимать обучаемую модель динамики — то есть модель, которая отвечает на вопрос: как состояние мира изменится под действием конкретного действия. Это не «мир в виде текста», а предсказательная модель причинно-следственных изменений в среде, завязанных на управление.
Я намеренно опускаю память, планирование и непрерывное улучшение (они критически важны), потому что их добавление усложнило бы сравнение. В этом тексте я говорю в основном о world model. В следующих статьях можно отдельно разобрать память/планирование/иерархии.
Итак, как на этом фоне выглядят VLA?
В чём VLA правы — и где не дотягивают
Ключевая проблема обучения роботов — это отображение высокоуровневых целей (секунды–минуты) в последовательность воплощённых действий.
Vision-language-модели действительно полезны для:
- семантического понимания;
- работы с инструкциями;
- декомпозиции задач и «смысла» происходящего.
В этом смысле VLA дают удобную форму рассуждения на длинном горизонте. По сравнению с чистыми diffusion policy или action-chunking transformers они хотя бы пытаются учитывать протяжённую структуру задачи.
Но являются ли они хорошими world model для робототехники? Я скептичен.
Скепсис связан с двумя взаимосвязанными проблемами:
- Несоответствие задач (objective mismatch). Цели предобучения vision-language-моделей (captioning, QA, instruction following) слабо согласованы с требованиями физического взаимодействия, где важны причинность, динамика, контакты, ошибки управления, неопределённость сенсоров и ограниченность исполнительных механизмов.
- Полезность латентных представлений. Формулировка задач и целевая функция обучения напрямую влияют на то, какая семантика появляется в латентах и насколько они пригодны для управления. Латент, удобный для ответа «что на картинке?», не обязан быть удобным для ответа «что будет, если я сдвину этот объект на 3 см?».
Во многих VLA-архитектурах vision-language-модель одновременно пытаются использовать и как «понимание мира», и как высокоуровневого планировщика. Иногда каждое наблюдение пропускается через vision-language-модель перед подачей в экспертную голову; иногда высокий латент обновляется реже. Такие инженерные эвристики намекают на одну и ту же проблему: в робототехнике “думать” и “действовать” обычно нельзя эффективно склеить в один и тот же модуль без потерь.
Тогда почему VLA так популярны? Потому что:
- vision-language-модели широко доступны и часто открыты;
- их легко подключать;
- они обучены на интернет-масштабных данных;
- они хорошо демонстрируют «инструкции → поведение» на эффектных задачах.
Я не хочу обесценивать успехи VLA. Моя мысль в другом: возможно, нам нужна иная формулировка world model для робототехники.
Какие world model нужны роботам
Если VLA — не те world model, которые нам нужны, то какие — те?
Мой тезис: нам необходимы модели прямой динамики, обученные на разнообразных сценариях. Это модели, которые явно изучают, как мир эволюционирует под действием конкретного действия.
Люди «думают» (планируют) не за счёт генерации языковых токенов, а посредством ментального моделирования исходов, основанного на физике и воплощённости. Для роботов аналогом этого являются обучаемые предсказательные модели причинно-следственной динамики.
В общем виде world model задаётся состоянием и действием и предсказывает будущие состояния. Должны ли такие модели предсказывать пиксели — открытый вопрос. «Состояние» может включать последние визуальные наблюдения, контекст, историю, проприоцепцию и другие сенсорные данные. Формулировка задачи для world model по-прежнему остаётся открытой проблемой.
Какие роли может играть world model
Практически world model может выступать как:
- симулятор для оценки;
- внутренняя предсказательная модель агента;
- генератор и аугментатор данных.
Почему world model важны именно сейчас
Мы находимся в точке перелома: обучаемые world model начинают стирать границу между физической симуляцией и генерацией ассетов.
World model по сути становятся нейронными симуляторами: они учат и динамику, и внешний вид по данным. Это не полностью решает проблему ассетов, но радикально снижает зависимость от вручную созданных сцен и ускоряет масштабирование обучающих данных.
Сегодня формируются два подхода:
- Synthetic-first — генерация сцены → rollout в world model
- Real-first — реальное изображение → генеративная аугментация → world model
Оба подхода ведут к одному: возможности генерировать практически неограничённые объёмы данных для обучения роботов.
Заключительные мысли
World model — это:
- симуляторы без вручную заданной физики;
- внутренние предсказательные модели для планирования;
- тестовые стенды для оценки политик;
- масштабные движки генерации и аугментации данных.
Чего сегодня не хватает — это широко доступного набора world model для робототехники, который в одном пайплайне объединяет:
- создание сцен (реальных или синтетических);
- обучаемую динамику;
- взаимодействие, обусловленное траекториями (action-conditioned rollouts);
- аугментацию данных и оценку.
Этот разрыв — то, чего сейчас не хватает в обучении роботов.