Эпоха Vision-Language-Action (VLA) моделей знаменует переход от жестко запрограммированных систем к воплощенному интеллекту — Embodied AI. В основе прорыва лежит смена архитектуры. В классических системах зрение, логика и контроль моторов разделены. VLA-модели, такие как RT-2 от Google DeepMind, обрабатывают все данные в едином трансформере. Текстовые токены и визуальные патчи объединяются, а на выходе модель генерирует токены действия, которые транслируются в параметры движения манипуляторов. Что это меняет: Семантическое планирование. Робот понимает контекст. Команда «убери остатки обеда» интерпретируется через LLM-базу: машина сама идентифицирует мусор и выбирает нужную силу захвата. Few-shot обучение. Модели вроде Figure-01 используют знания из миллиардов страниц текста и видео для выполнения задач в новых условиях без дообучения. Рассуждение в пространстве. С помощью Chain-of-Thought робот сначала строит план действий «в уме», а затем переходит к физическому исполнению. Основны