783 подписчика

Чего не хватает в современном обучении роботов - Часть 1

23 января23 янв

7 мин

Эта статья — для тех, кто уже работает с роботами, RL или VLA (Vision-Language-Action) и чувствует, что текущие подходы упираются в потолок. Я не буду спорить о «как решить AGI для робототехники» — оставлю это долгосрочной дискуссии. Мой фокус прагматичен: какой следующий осмысленный шаг приведёт к масштабируемым и надёжным системам physical AI, которые действительно работают в реальном мире. Обучение роботов по своей природе — прикладная область ИИ. Значительная часть прогресса достигается за счёт заимствования компонентов, разработанных в других доменах, и их сборки в системы. Хороший пример — модели Vision-Language-Action (VLA). Сегодня они стали стандартным решением для задач с длинным горизонтом: от секунд до минут. Типичная VLA-система сочетает: VLA популярны не потому, что это «фундаментально правильный» путь, а потому что они закрывают несколько практических требований для внедрения: доступность моделей, понятный интерфейс «инструкция → действие», хорошие демонстрации на широко

Оглавление

Почему VLA стали стандартом
Аналогия обучения из физического мира
Как эта аналогия отображается на обучение роботов

Почему VLA стали стандартом

Обучение роботов по своей природе — прикладная область ИИ. Значительная часть прогресса достигается за счёт заимствования компонентов, разработанных в других доменах, и их сборки в системы. Хороший пример — модели Vision-Language-Action (VLA). Сегодня они стали стандартным решением для задач с длинным горизонтом: от секунд до минут.

Типичная VLA-система сочетает:

vision–language модель, обычно предобученную на описании изображений, QA или следовании инструкциям;
модель действий, часто в виде «экспертной головы» (например, diffusion policy, обученной с использованием цели flow-matching).

VLA популярны не потому, что это «фундаментально правильный» путь, а потому что они закрывают несколько практических требований для внедрения: доступность моделей, понятный интерфейс «инструкция → действие», хорошие демонстрации на широком наборе задач. Но при этом в них всё ещё отсутствуют критически важные компоненты, если говорить о масштабируемом обучении навыкам.

Чтобы объяснить, чего именно не хватает, начну с простой аналогии.

Аналогия обучения из физического мира

Позвольте приземлить обсуждение на личном опыте.

Несколько лет назад я решил научиться кататься на сноуборде. Я вырос в жарком климате, где зимних видов спорта не было, поэтому для меня это было полностью новым. Прежде чем вообще встать на доску, я посмотрел часы видео о сноубординге. Мне было интересно, можно ли освоить физически сложный и требующий координации навык почти исключительно через наблюдение. Я предполагал, что общая спортивность поможет, и что всё, что нужно, — «понять физику процесса».

Вооружённый YouTube-видео, новым снаряжением и энтузиазмом, я поехал в Сочи. Я встал на доску и тут же упал. И снова. И снова. Я провёл на земле куда больше времени, чем на доске.

В ретроспективе это неудивительно. Я пытался задействовать мышечные группы непривычным образом. Видео показывали, что нужно делать и как выглядит успех, но не показывали как это ощущается и как корректировать ошибки в реальном времени. Они не могли этого показать, потому что эта информация зависит от воплощённости — embodiment.

Во второй раз я записался на занятия для начинающих. Изменения были мгновенными. Я научился держать баланс, получал явную обратную связь о своих ошибках и начал формировать базовое чувство контроля. Я всё ещё часто падал, но теперь значительную часть времени проводил стоя.

Вернувшись домой, я пересмотрел многие из тех же видео. На этот раз они стали куда понятнее. Я начал замечать детали, которые раньше игнорировал, и мог мысленно симулировать движения, опираясь на уже имеющийся физический опыт. Такие концепции, как смещение центра тяжести или управление с помощью задней ноги, перестали быть абстрактными.

На третьей поездке я в основном экспериментировал. У меня было некоторое обучение, частичная «физическая модель» и желание проверять гипотезы. После нескольких падений мне удалось съехать с учебного склона. Я наконец связал действия — конкретные команды телу — с результатами, которые раньше видел только на видео.

Я не хороший сноубордист, и это не руководство по спорту. Но этот опыт даёт полезную систему координат для понимания того, как роботы могут осваивать новые навыки.

Как эта аналогия отображается на обучение роботов

В этой интерпретации:

инструкции и обратная связь аналогичны imitation learning с плотной супервизией;
просмотр видео соответствует обучению world model — пониманию того, какие исходы возможны и как в целом ведёт себя мир;
попытки действовать и сопоставление действий с результатами — это reinforcement learning, основанное на специфичном для воплощения управлении.

Здесь важно уточнение про термин: в этой статье под world model я буду понимать обучаемую модель динамики — то есть модель, которая отвечает на вопрос: как состояние мира изменится под действием конкретного действия. Это не «мир в виде текста», а предсказательная модель причинно-следственных изменений в среде, завязанных на управление.

Я намеренно опускаю память, планирование и непрерывное улучшение (они критически важны), потому что их добавление усложнило бы сравнение. В этом тексте я говорю в основном о world model. В следующих статьях можно отдельно разобрать память/планирование/иерархии.

Итак, как на этом фоне выглядят VLA?

В чём VLA правы — и где не дотягивают

Ключевая проблема обучения роботов — это отображение высокоуровневых целей (секунды–минуты) в последовательность воплощённых действий.

Vision-language-модели действительно полезны для:

семантического понимания;
работы с инструкциями;
декомпозиции задач и «смысла» происходящего.

В этом смысле VLA дают удобную форму рассуждения на длинном горизонте. По сравнению с чистыми diffusion policy или action-chunking transformers они хотя бы пытаются учитывать протяжённую структуру задачи.

Но являются ли они хорошими world model для робототехники? Я скептичен.

Скепсис связан с двумя взаимосвязанными проблемами:

Несоответствие задач (objective mismatch). Цели предобучения vision-language-моделей (captioning, QA, instruction following) слабо согласованы с требованиями физического взаимодействия, где важны причинность, динамика, контакты, ошибки управления, неопределённость сенсоров и ограниченность исполнительных механизмов.
Полезность латентных представлений. Формулировка задач и целевая функция обучения напрямую влияют на то, какая семантика появляется в латентах и насколько они пригодны для управления. Латент, удобный для ответа «что на картинке?», не обязан быть удобным для ответа «что будет, если я сдвину этот объект на 3 см?».

Во многих VLA-архитектурах vision-language-модель одновременно пытаются использовать и как «понимание мира», и как высокоуровневого планировщика. Иногда каждое наблюдение пропускается через vision-language-модель перед подачей в экспертную голову; иногда высокий латент обновляется реже. Такие инженерные эвристики намекают на одну и ту же проблему: в робототехнике “думать” и “действовать” обычно нельзя эффективно склеить в один и тот же модуль без потерь.

Тогда почему VLA так популярны? Потому что:

vision-language-модели широко доступны и часто открыты;
их легко подключать;
они обучены на интернет-масштабных данных;
они хорошо демонстрируют «инструкции → поведение» на эффектных задачах.

Я не хочу обесценивать успехи VLA. Моя мысль в другом: возможно, нам нужна иная формулировка world model для робототехники.

Какие world model нужны роботам

Если VLA — не те world model, которые нам нужны, то какие — те?

Мой тезис: нам необходимы модели прямой динамики, обученные на разнообразных сценариях. Это модели, которые явно изучают, как мир эволюционирует под действием конкретного действия.

робот, представляющий различные варианты поведения

Люди «думают» (планируют) не за счёт генерации языковых токенов, а посредством ментального моделирования исходов, основанного на физике и воплощённости. Для роботов аналогом этого являются обучаемые предсказательные модели причинно-следственной динамики.

В общем виде world model задаётся состоянием и действием и предсказывает будущие состояния. Должны ли такие модели предсказывать пиксели — открытый вопрос. «Состояние» может включать последние визуальные наблюдения, контекст, историю, проприоцепцию и другие сенсорные данные. Формулировка задачи для world model по-прежнему остаётся открытой проблемой.

Какие роли может играть world model

Практически world model может выступать как:

симулятор для оценки;
внутренняя предсказательная модель агента;
генератор и аугментатор данных.

Почему world model важны именно сейчас

Мы находимся в точке перелома: обучаемые world model начинают стирать границу между физической симуляцией и генерацией ассетов.

World model по сути становятся нейронными симуляторами: они учат и динамику, и внешний вид по данным. Это не полностью решает проблему ассетов, но радикально снижает зависимость от вручную созданных сцен и ускоряет масштабирование обучающих данных.

Сегодня формируются два подхода:

Synthetic-first — генерация сцены → rollout в world model
Real-first — реальное изображение → генеративная аугментация → world model

Оба подхода ведут к одному: возможности генерировать практически неограничённые объёмы данных для обучения роботов.

Заключительные мысли

World model — это:

симуляторы без вручную заданной физики;
внутренние предсказательные модели для планирования;
тестовые стенды для оценки политик;
масштабные движки генерации и аугментации данных.

Чего сегодня не хватает — это широко доступного набора world model для робототехники, который в одном пайплайне объединяет:

создание сцен (реальных или синтетических);
обучаемую динамику;
взаимодействие, обусловленное траекториями (action-conditioned rollouts);
аугментацию данных и оценку.

Этот разрыв — то, чего сейчас не хватает в обучении роботов.