842 подписчика

Роботы приобретают гигантский интеллект благодаря новым моделям Google DeepMind

28 января28 янв

4 мин

В мире робототехники произошло революционное событие: Google DeepMind представила две новые модели искусственного интеллекта, которые кардинально расширяют возможности машин по пониманию окружающего мира и выполнению сложных задач. Эти разработки делают роботов по-настоящему универсальными помощниками, способными к разумной деятельности, которая ранее казалась недосягаемой. Именно эти модели открывают путь к созданию роботов-аспирантов, способных выполнять многоэтапные действия, адаптироваться к новым условиям и объяснять свои решения на естественном языке. Изначально в 2023 году Google DeepMind анонсировала концепцию Gemini Robotics — искусственный интеллект, основанный на их крупной языковой модели Gemini, адапированной специально для робототехнических задач. Эта модель позволяла роботам выполнять простые операции: например, перемещать предметы, следовать инструкциям вроде "положи банан в корзину". Хотя такие возможности были значительным прорывом, их ограниченность становилась очеви

Оглавление

Первые шаги к интеллектуальной робототехнике
Инновационные модели Gemini Robotics 1.5 и Gemini Robotics-ER 1.5
Пример из жизни: сортировка фруктов и объяснение своих действий

Первые шаги к интеллектуальной робототехнике

Изначально в 2023 году Google DeepMind анонсировала концепцию Gemini Robotics — искусственный интеллект, основанный на их крупной языковой модели Gemini, адапированной специально для робототехнических задач. Эта модель позволяла роботам выполнять простые операции: например, перемещать предметы, следовать инструкциям вроде "положи банан в корзину". Хотя такие возможности были значительным прорывом, их ограниченность становилась очевидной при попытках решить сложные задачи, требующие многократных размышлений и коррекции действий.

Инновационные модели Gemini Robotics 1.5 и Gemini Robotics-ER 1.5

Недавно на свет появились новые версии — Gemini Robotics 1.5 и Gemini Robotics-ER 1.5. Они значительно превосходят своих предшественников, демонстрируя способность к выполнению многошаговых, "длинных" задач, требующих автономного мышления и планирования. Эти модели используют интеграцию визуальных, языковых и действийных компонентов, что позволяет роботам не только воспринимать окружающую среду, но и обосновывать свои действия, объясняя их на языке человека.

Пример из жизни: сортировка фруктов и объяснение своих действий

Одним из самых ярких примеров демонстрации возможностей новых моделей стала проверка на практике задачи сортировки. Робот, оснащённый двойными манипуляторами (модель Aloha 2), получил команду «отсортировать фрукты по цвету». В ходе теста он выбрал, например, банан, апельсин и лайм, и аккуратно разместил их по разным тарелкам, соответствующим цветам. Более того, робот объяснил, что он делает, и почему, — например, „Я кладу банан сюда, потому что он желтый и соответствует этой тарелке”.

Модель Gemini Robotics-ER 1.5 выступила в роли "глаз и ума", анализируя визуальное пространство и планируя действия. А другая модель — Gemini Robotics 1.5, которая реализует управление руками и языковую обработку — исполняла инструкции, используя полученную информацию. Обе модели взаимодействовали, как квалифицированный руководитель и исполнитель, что обеспечило высокое качество выполнения заданий и возможностью объяснить свои решения. Такой подход делает роботов гораздо более “интеллектуальными” и пригодными для работы в реальных условиях.

Использование поиска и адаптация к непредвиденным ситуациям

Еще одним важным достижением является возможность роботов использовать внешние источники информации для выполнения задач. Например, робот, ориентируясь по месту, определил, что в Сан-Франциско действуют особые правила сортировки мусора, и самостоятельно нашел эти правила в интернете, чтобы правильно выбрать контейнеры. Это демонстрирует, насколько гибкими и адаптивными могут стать такие системы, используя инструменты вроде Google Поиск для эффективности работы.

Обучение и межсистемное применение знаний

Особенность новых моделей заключается в их способности к обучению на опыте и применению полученных знаний в различных робототехнических системах. Представители DeepMind заявили, что любой опыт, полученный роботом Aloha 2, humanoидным роботом Apollo или двуруким роботом Franka, можно использовать для повышения умственных возможностей любого другого устройства. Такой подход значительно ускоряет развитие и масштабирование робототехнических решений, делая их более универсальными и доступными.

Технические детали и будущее развития

Модели Gemini Robotics взаимодействуют через сложную архитектуру из двух частей: Vision-Language Model (VLM) и Vision-Language-Action (VLA). Первая собирает визуальную информацию, распознает объекты и их свойства, а вторая — планирует действия и выполняет их, основываясь на полученной информации и инструкциях. В совокупности они позволяют роботу не только выполнять команды, но и сочетать их с контекстом окружающей среды, что ранее было доступно только человеку.

Особое значение имеет способность моделей к межзадачному обучению — робот может применять полученные знания в различных ситуациях. Например, сортировка одежды по цвету или поиск и сбор предметов. В ходе тестов роботы успешно адаптировались к изменениям условий, например, к перемещению вещей или изменению расположения предметов, что значительно приближает их к возможностям человека.

Потенциал для практического применения и вызовы

Реальные сценарии использования таких роботов включают автоматизацию складских операций, сортировку отходов, помощь в медицине и обслуживании, а также выполнение сложных домашних задач. Несмотря на впечатляющие успехи, сегодня остаются вызовы, связанные с техникой безопасности, этикой и необходимостью обучения систем в реальных условиях. Поэтому разработчики работают над совершенствованием искусственного интеллекта, расширяя его возможности и делая его более безопасным и надежным.

Заключение: революционный прорыв в робототехнике

Новые модели Google DeepMind — Gemini Robotics 1.5 и Gemini Robotics-ER 1.5 — представляют собой мощный скачок вперед в области искусственного интеллекта для робототехники. Они делают роботов способными к мышлению, объяснению своих действий и адаптации к новым задачам без необходимости ручной перенастройки. Эта технология уже начинает менять представление о будущем автоматизации, делая роботов более умными, универсальными и полезными.