60,9 тыс подписчиков

Google DeepMind смогла чат-ботом управлять одновременно 20 роботами и 52 устройствами. Это произошло впервые в мире

2 минуты

5 января

Исследователи DeepMind Robotics компании Google являются одной из нескольких команд, работающих над генеративным ИИ в области робототехники. В своем блоге команда рассказала о текущих исследованиях, направленных на то, чтобы роботы лучше понимали, чего именно от них требуют люди.

Традиционно роботы были ориентированы на выполнение одной задачи. Они, как правило, очень хорошо справляются с одной задачей, но все же сталкиваются с трудностями, когда в процесс вносятся изменения.

Недавно анонсированная система AutoRT предназначена для использования больших фундаментальных моделей в различных целях. В примере, приведенном командой DeepMind, система использует модели визуального языка (VLM) для ориентации в пространстве.

AutoRT способна управлять парком роботов, связанных между собой и оснащенных камерами для получения представления о среде и объектах в ней. Большая языковая модель при этом предлагает задачи, которые выполняются аппаратурой. Многие считают, что такие ИИ — это ключ к созданию роботов, которые будут понимать команды на естественном языке, снижая необходимость в навыках программирования.

За последние семь месяцев система уже прошла множество испытаний. AutoRT способна управлять одновременно 20 роботами и 52 различными устройствами. В общей сложности DeepMind прошла около 77 тыс. испытаний, включающих более 6 тыс. задач.

Еще одной новинкой является RT-Trajectory, которая использует видеоинформацию для обучения роботов. Многие разработчики изучают возможность использования видеороликов на YouTube для обучения роботов, но RT-Trajectory накладывает на каждое видео из обучающего набора данных 2D-эскиз траектории движения робота при выполнении задания. Эти траектории в виде RGB-изображений обеспечивают практические визуальные подсказки для модели в процессе обучения управления роботом.

В DeepMind утверждают, что при тестировании на 41 задаче рука, управляемая RT-Trajectory, более чем в два раза превзошла существующие современные модели RT. Ей удалось успешно выполнить 63% заданий.

«RT-Trajectory — это не только еще один шаг на пути к созданию роботов, способных двигаться с высокой точностью в новых ситуациях. Это позволяет использовать знания из существующих наборов данных», — отмечает команда.

Ранее стало известно, что видео, демонстрирующее возможности модели искусственного интеллекта Google, было «слишком хорошим, чтобы быть правдой». Демо-версия Gemini, которую просмотрели на YouTube 1,6 млн человек, демонстрирует как ИИ в режиме реального времени реагирует на голосовые запросы и видео. В описании к видео Google сообщил, что они ускорили ответы ИИ ради демо. Компания также признала, что Gemini на данный момент вообще не реагирует на голос или видео.