31 подписчик

LingBot-VA: когда робот сначала «представляет», а потом действует

2 февраля2 фев

3 мин

Один из главных барьеров на пути к универсальным роботам — не сила сервоприводов и не качество камер, а умение работать в длинных, непредсказуемых сценариях. На кухне, в лаборатории или на складе нельзя просто реагировать на картинку «здесь и сейчас»: нужно помнить, что уже сделано, понимать, что изменится через секунду, и выбирать действия так, чтобы не загнать себя в тупик. Именно в эту сторону смотрит LingBot-VA — открытый проект команды Ant Lingbo, который описывают как каузальную видео‑действие (video-action) мир‑модель для управления универсальными роботами. Ключевой сдвиг: робот перестаёт быть «рефлекторным». От “observe–react” к “imagine–act” Классические VLA-подходы (vision‑language‑action) часто действуют по принципу «увидел → сразу двинулся». LingBot-VA вставляет между наблюдением и действием промежуточный, но решающий этап — прогноз будущего: Идея простая, но последствия большие: решение становится не реакцией, а попыткой привести мир к желаемому состоянию, основанной на пр

Один из главных барьеров на пути к универсальным роботам — не сила сервоприводов и не качество камер, а умение работать в длинных, непредсказуемых сценариях. На кухне, в лаборатории или на складе нельзя просто реагировать на картинку «здесь и сейчас»: нужно помнить, что уже сделано, понимать, что изменится через секунду, и выбирать действия так, чтобы не загнать себя в тупик.

Именно в эту сторону смотрит LingBot-VA — открытый проект команды Ant Lingbo, который описывают как каузальную видео‑действие (video-action) мир‑модель для управления универсальными роботами. Ключевой сдвиг: робот перестаёт быть «рефлекторным».

От “observe–react” к “imagine–act”

Классические VLA-подходы (vision‑language‑action) часто действуют по принципу «увидел → сразу двинулся». LingBot-VA вставляет между наблюдением и действием промежуточный, но решающий этап — прогноз будущего:

сначала модель авторегрессионно предсказывает несколько секунд будущих кадров (будущие визуальные состояния);
затем с помощью inverse dynamics «откатывает» от ожидаемого изменения картинки к ответу: какое действие нужно выполнить, чтобы к этому будущему прийти.

Идея простая, но последствия большие: решение становится не реакцией, а попыткой привести мир к желаемому состоянию, основанной на прогнозе.

Почему это может лучше масштабироваться

Авторы отдельно подчёркивают проблему representation entanglement: когда одна сеть одновременно пытается «понимать изображение», «моделировать физику» и «управлять моторикой». LingBot-VA разносит роли и усиливает контроль причинности:

Кауза и память. Видео-токены и токены действий идут в одной временной последовательности, а causal attention не даёт использовать информацию «из будущего». KV-cache помогает удерживать контекст, чтобы робот не «забывал», что делал несколько шагов назад — это критично для длинных задач.
MoT (Mixture-of-Transformers). Две ветки работают совместно, но не мешают друг другу:
«широкая и глубокая» видео-ветка тянет тяжёлое визуальное прогнозирование;
«лёгкая и быстрая» action-ветка отвечает за точное управление.
Инженерные ускорения. Упоминаются partial denoising (не всегда нужно “рендерить будущее” максимально чисто), asynchronous inference (вычисления следующего шага параллельно с исполнением текущего) и grounding — регулярная коррекция «воображаемого» реальными наблюдениями, чтобы не накапливался дрейф.

Проверка на реальных задачах и бенчмарках

В демонстрациях и тестах акцент сделан на трёх «больных» типах задач:

Длинные сценарии (условно: приготовить завтрак, распаковать посылку) — много шагов, где цена ошибки высока. Подход с памятью и прогнозом помогает действовать стабильнее и восстанавливаться после сбоев.
Высокоточные манипуляции (например, очистка тонких прозрачных пробирок, закручивание винтов) — важна моторная стабильность на миллиметровом уровне.
Деформируемые объекты (складывание одежды) — мир меняется прямо во время действия, и предсказание будущей геометрии становится преимуществом.

На симуляционных наборах заявлены сильные цифры: RoboTwin 2.0 (92.93% Easy и 91.55% Hard) и LIBERO со средней успешностью 98.5%, при этом преимущество растёт с увеличением длины горизонта (Horizon).

Почему «4 дня open-source» важны не меньше модели

Проект подают как часть последовательной линии релизов: от улучшения восприятия и интерфейса VLA — к миру‑модели и далее к встраиванию её в контур управления. Это сигнал рынку: видео становится не просто датасетом, а языком рассуждений робота — общей формой для восприятия, памяти, физики и действий.

Ссылки из материала: страница проекта — technology.robbyant.com/lingbot-va, код — github.com/robbyant/lingbot-va, веса — huggingface.co/robbyant/lingbot-va и modelscope.cn/collections/Robbyant/LingBot-va.

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/