Робот читает рукописную записку, идет к обуви, раскладывает ее по местам, подбирает банки, складывает одежду в корзину. В финале берет поводок и выводит на прогулку собаку. Это не очередная фантазия разработчика — именно так Boston Dynamics показала результат интеграции языковой модели Gemini Robotics-ER 1.6 от Google DeepMind в своего четвероногого робота. До этого момента Spot работал по скриптам. Инженеры заранее прописывали каждое действие: куда идти, что взять, как повернуть манипулятор. Стоило среде измениться, и робот терялся. Теперь схема другая: Spot видит обстановку камерами, языковая модель интерпретирует картинку и текстовую задачу, а затем самостоятельно выстраивает план действий. Технически это называют VLA-архитектурой — vision-language-action. Проще говоря, три слоя: зрение, понимание языка и физическое действие. Модель не просто распознает объекты — она соображает, что с ними делать в конкретном контексте. Написано «убери обувь» — Spot сам решает, где она стоит, как к