647 подписчиков

Прорыв в области робототехники: Google создал роботов, понимающих человека без специального обучения

14 марта 202514 мар 2025

11 мин

Google DeepMind представила революционную разработку Gemini Robotics и Gemini Robotics-ER — две инновационные модели искусственного интеллекта, созданные для того, чтобы роботы могли выполнять сложные физические задачи без предварительного обучения. Эти модели представляют собой значительный шаг в направлении интеграции искусственного интеллекта в физический мир, обеспечивая роботам беспрецедентную адаптивность, понимание естественного языка и способность взаимодействовать с окружающей средой. Официальное представление этих технологий состоялось 12 марта 2025 года и уже вызвало значительный резонанс в технологическом сообществе как потенциальный переломный момент в развитии робототехники. Семейство Gemini Robotics состоит из двух основных моделей, каждая из которых имеет свои особенности и предназначение. Gemini Robotics представляет собой продвинутую систему, объединяющую зрение, язык и действие (VLA — vision-language-action), которая построена на основе архитектуры Gemini 2.0 с добав

Оглавление

Что такое Gemini Robotics: основа и принципы работы
Преимущества перед существующими технологиями
Технические особенности: три ключевых качества

Что такое Gemini Robotics: основа и принципы работы

Семейство Gemini Robotics состоит из двух основных моделей, каждая из которых имеет свои особенности и предназначение. Gemini Robotics представляет собой продвинутую систему, объединяющую зрение, язык и действие (VLA — vision-language-action), которая построена на основе архитектуры Gemini 2.0 с добавлением физических действий как новой модальности вывода. Это позволяет роботам обрабатывать визуальную информацию, понимать команды на естественном языке и выполнять сложные физические задачи с беспрецедентной гибкостью и точностью.

С другой стороны, Gemini Robotics-ER (Embodied Reasoning) фокусируется на улучшенном пространственном понимании и воплощенном мышлении. Данная модель позволяет разработчикам робототехники запускать собственные программы с повышенной производительностью, адаптируясь к различным типам роботов — от платформ с двумя манипуляторами до сложных человекоподобных роботов, таких как Apollo от компании Apptronik.

Преимущества перед существующими технологиями

Обе модели демонстрируют значительное улучшение по сравнению с существующими технологиями. Например, Gemini Robotics показывает 74,5% успешности при выполнении задач в пределах распределения, тогда как предыдущие многозадачные политики диффузии достигали лишь 42,6%. Такой значительный скачок в производительности свидетельствует о фундаментальном прогрессе в области искусственного интеллекта для робототехники.

Как отмечает Каролина Парада, руководитель команды робототехники Google DeepMind, «одной из главных проблем в робототехнике, и причиной, по которой вы не видите полезных роботов повсюду, является то, что роботы обычно хорошо работают в сценариях, с которыми они сталкивались раньше, но они действительно не могут обобщать в незнакомых ситуациях». Именно эту проблему и решают новые модели Gemini Robotics.

Технические особенности: три ключевых качества

Google DeepMind выделяет три основных качества, которые делают Gemini Robotics революционной разработкой: обобщаемость, интерактивность и точность движений. Эти характеристики в совокупности обеспечивают роботам возможность адаптироваться к разнообразным ситуациям, взаимодействовать с динамичным окружением и выполнять сложные задачи с высокой точностью.

Обобщаемость и адаптивность

Gemini Robotics использует возможности понимания мира модели Gemini 2.0 для обобщения в новых ситуациях. Это означает, что модель может решать задачи, с которыми никогда раньше не сталкивалась, адаптироваться к новым объектам и работать в незнакомых средах. По данным Google DeepMind, Gemini Robotics более чем вдвое превосходит производительность современных моделей зрение-язык-действие по показателям обобщения.

Эта способность является решающей для создания по-настоящему полезных роботов, которые могут функционировать в реальном мире, где непредсказуемость является нормой. Как отмечает Александр Хазатский, исследователь искусственного интеллекта и соучредитель CollectedAI, модель Gemini Robotics представляет собой «небольшой, но ощутимый шаг» в направлении создания машин, которые интуитивно понятны в управлении и могут решать различные физические задачи без необходимости в человеческом надзоре или предварительном программировании.

Интерактивность и понимание команд

Чтобы эффективно функционировать в реальном мире, роботы должны беспрепятственно взаимодействовать с людьми и окружающей средой. Gemini Robotics превосходит в этой области благодаря своим продвинутым возможностям понимания языка. Модель может интерпретировать и отвечать на инструкции на естественном языке, следить за изменениями в своем окружении и соответствующим образом корректировать свои действия.

Например, если объект выскальзывает из захвата робота или перемещается человеком, Gemini Robotics может быстро перепланировать и продолжить выполнение задачи. Этот уровень адаптивности имеет решающее значение для реальных приложений, где непредсказуемость является нормой. В одном из впечатляющих примеров, когда роботу дали указание «положить бананы в прозрачный контейнер», он успешно идентифицировал оба объекта, взял бананы и правильно разместил их — даже когда контейнер перемещался, демонстрируя свою способность адаптироваться к динамическим средам.

Google DeepMind представила новые модели ИИ для управления роботами

Точность движений и манипуляции

Многие повседневные задачи требуют тонких моторных навыков, которые традиционно были сложными для роботов. Однако Gemini Robotics демонстрирует замечательную точность движений, позволяя выполнять сложные, многоэтапные задачи, такие как складывание оригами или упаковка закуски в пакет с застежкой-молнией.

В демонстрационных видео Google показала роботов, выполняющих множество задач. В одной демонстрации робот смог понять и выполнить команду забросить миниатюрный баскетбольный мяч в игрушечное кольцо — задачу, для которой он не был обучен. В другой демонстрации ему было сказано положить фрукты в прозрачную миску, и он продолжал корректировать свой подход, когда человек перемещал миску.

Практические применения и впечатляющие возможности

Демонстрируя замечательную универсальность, новые модели искусственного интеллекта позволяют роботам выполнять впечатляющий спектр задач с точностью и адаптивностью. Эти задачи включают в себя складывание сложных моделей оригами, упаковку продуктов в пакеты с застежкой-молнией, завязывание шнурков и даже выяснение того, как «забросить мяч в корзину», несмотря на то, что робот никогда раньше не сталкивался с баскетбольным мячом.

Обучение без предварительной подготовки

Одним из наиболее впечатляющих аспектов Gemini Robotics является его способность выполнять задачи без предварительного обучения или специфических инструкций для каждого сценария. Как описывает Nature, с использованием модели «машины могут выполнять некоторые задачи — такие как 'слэм-данк' миниатюрного баскетбольного мяча через настольное кольцо — несмотря на то, что никогда не видели, как другой робот выполняет это действие».

Google DeepMind обучала робота как на смоделированных, так и на реальных данных. Некоторые данные поступали из развертывания робота в смоделированных средах, где он мог узнать о физике и препятствиях, например, о том, что он не может пройти сквозь стену. Другие данные поступали из телеоперации, где человек использует устройство дистанционного управления для направления робота через действия в реальном мире.

Адаптация к изменяющимся условиям

Ключевым отличием Gemini Robotics от предыдущих систем является его способность адаптироваться к изменяющимся условиям и непредвиденным обстоятельствам. Например, если объект перемещается или условия меняются, робот может переоценить ситуацию и скорректировать свои действия соответствующим образом.

Это особенно важно для реальных приложений, где среда редко бывает статичной или полностью предсказуемой. Как отмечает Google DeepMind, «Gemini Robotics может быстро перепланировать и продолжить задачу», если объект выскальзывает из захвата робота или перемещается человеком. Эта адаптивность является ключевым фактором для создания роботов, которые могут быть действительно полезными в повседневных сценариях.

Безопасность как приоритет: многоуровневый подход

Google DeepMind придает первостепенное значение безопасности в разработке Gemini Robotics, внедряя меры для обеспечения ответственного и надежного развертывания роботов с искусственным интеллектом. Компания применяет многоуровневый, целостный подход к решению вопросов безопасности в своих исследованиях, от низкоуровневого управления двигателями до высокоуровневого семантического понимания.

Набор данных ASIMOV и этические руководства

Одним из ключевых аспектов подхода Google DeepMind к безопасности является разработка набора данных ASIMOV (Artificial Social Intelligence for Machines and Oversight Validation), предназначенного для оценки и улучшения социального интеллекта роботов. Этот набор данных вдохновлен знаменитыми «Тремя законами робототехники» Айзека Азимова и направлен на помощь исследователям в разработке роботов, которые безопаснее и более соответствуют человеческим ценностям.

Google DeepMind также разработала так называемую «Конституцию робота», набор правил, вдохновленных законами Азимова, которым должны следовать их роботы. Эта система контроля направлена на обеспечение безопасного и этичного использования роботов, предотвращая потенциально вредные действия.

Интеграция различных уровней безопасности

Физическая безопасность роботов и окружающих их людей является давней, фундаментальной проблемой в науке о робототехнике. Поэтому специалисты по робототехнике имеют классические меры безопасности, такие как избегание столкновений, ограничение величины контактных сил и обеспечение динамической стабильности мобильных роботов.

Gemini Robotics-ER может взаимодействовать с этими «низкоуровневыми» контроллерами, критически важными для безопасности, которые специфичны для каждого конкретного воплощения. Опираясь на основные функции безопасности Gemini, Google DeepMind позволяет моделям Gemini Robotics-ER понимать, безопасно ли выполнять потенциальное действие в данном контексте, и генерировать соответствующие ответы.

Этот комплексный подход к безопасности направлен на решение проблем, связанных с потенциальными рисками все более способных систем искусственного интеллекта в робототехнике, обеспечивая, чтобы по мере того, как роботы становятся более интеллектуальными и универсальными, они оставались безопасными и полезными для общества.

Стратегические партнерства и перспективы развития

Сотрудничая с лидерами отрасли, DeepMind заключила партнерство с Apptronik для интеграции своих передовых моделей искусственного интеллекта в человекоподобных роботов. Компания также предоставляет доступ к модели Gemini Robotics-ER доверенным тестировщикам, включая Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools.

Сотрудничество с ведущими компаниями в области робототехники

Google сообщила о партнерстве с техасским разработчиком Apptronik для внедрения Gemini в человекоподобных роботов Apptronik. Этот стратегический ход соответствует видению генерального директора Google Сундара Пичаи, который рассматривает робототехнику как «полезную испытательную площадку для перевода достижений ИИ в физический мир». Объединяя передовые языковые модели с робототехникой, эти партнерства направлены на ускорение разработки и внедрения более способных, адаптивных и интеллектуальных робототехнических систем в различных отраслях.

Кроме того, Google DeepMind сотрудничает с избранной группой тестировщиков — включая Agile Robots, Agility Robotics, Enchanted Tools и Boston Dynamics, создателя робота-собаки Spot — для изучения возможностей Gemini Robotics-ER. Эти сотрудничества помогут усовершенствовать модели и направить их разработку в сторону реальных приложений.

Перспективы внедрения и будущие приложения

Объединяя продвинутое мышление с физическим действием, Google DeepMind прокладывает путь к будущему, где роботы могут помогать людям в широком спектре задач — от домашних дел до промышленных применений. По словам старшего директора Google DeepMind Каролины Парады, «для того чтобы строить действительно полезных роботов, им нужно понимать вас. Им нужно понимать мир вокруг них, а затем они должны быть в состоянии предпринимать безопасные действия таким образом, который является общим, интерактивным и точным».

Эти достижения могут привести к значительным изменениям в различных отраслях, от производства до здравоохранения, логистики и домашней автоматизации. По мере того как роботы становятся более способными и адаптивными, они могут брать на себя все более сложные задачи, потенциально революционизируя способы нашего взаимодействия с технологиями в повседневной жизни.

Заключение: новая эра взаимодействия искусственного интеллекта и физического мира

Представление Gemini Robotics и Gemini Robotics-ER от Google DeepMind знаменует собой важный шаг в эволюции искусственного интеллекта и робототехники. Объединяя передовые возможности понимания языка и изображений Gemini 2.0 с физическими действиями, эти модели открывают новые горизонты для создания более полезных, адаптивных и интуитивно понятных роботов.

Способность выполнять сложные задачи без предварительного обучения, адаптироваться к изменяющимся обстоятельствам и безопасно взаимодействовать с людьми и окружающей средой представляет собой значительный прогресс в области робототехники. По мере того как эти технологии продолжают развиваться и совершенствоваться через партнерства с лидерами отрасли, мы можем ожидать еще более впечатляющих достижений в будущем.

Значение этих разработок выходит далеко за рамки технологических достижений. Они имеют потенциал трансформировать различные аспекты нашей жизни, от того, как мы работаем и учимся, до того, как мы взаимодействуем с нашими домами и проводим повседневные задачи. По мере того как границы между цифровым и физическим мирами продолжают размываться, Gemini Robotics представляет собой захватывающий взгляд на более интегрированное, интеллектуальное и автоматизированное будущее.

В мире, где технологии становятся все более важными в нашей повседневной жизни, Gemini Robotics указывает на новую эру, в которой искусственный интеллект не только понимает и взаимодействует с нами в цифровом пространстве, но и активно помогает нам в физическом мире, делая наши дома, рабочие места и сообщества более эффективными, безопасными и комфортными.

Подпишитесь, чтобы не пропустить новые статьи о последних достижениях в области искусственного интеллекта и робототехники, которые меняют наш мир.