11,4 тыс подписчиков

🌟 Google DeepMind выпустила Gemini Robotics-ER 1.6

20 апреля20 апр

1 мин

Gemini Robotics-ER 1.6 - обновлённая модель воплощенного ризонинга, которая отвечает за пространственное понимание, планирование задач и детекцию успеха робота, но сама не управляет приводами. За моторные команды по-прежнему отвечает отдельная VLA-модель Gemini Robotics 1.5. ER-версия лишь подсказывает ей, что и в каком порядке делать, и при необходимости вызывает внешние инструменты (от поиска Google Search пользовательских функций. 🟡Чтение приборов Совместно с Boston Dynamics в DeepMind научили модель интерпретировать аналоговые манометры, уровнемеры, смотровые стёкла и цифровые табло. Задача нетривиальная: нужно распознать стрелки, риски, единицы измерения и корректно сложить разряды, а для смотровых стёкол - оценить уровень жидкости с поправкой на перспективу камеры. Сценарий заточен под обходы промышленных объектов, которыми занимается робот Spot. Точность достигается за счёт связки визуального ризонинга и исполнения кода. Модель сначала зумит целевой участок снимка, зате

За моторные команды по-прежнему отвечает отдельная VLA-модель Gemini Robotics 1.5.

ER-версия лишь подсказывает ей, что и в каком порядке делать, и при необходимости вызывает внешние инструменты (от поиска Google Search пользовательских функций.

🟡Чтение приборов

Совместно с Boston Dynamics в DeepMind научили модель интерпретировать аналоговые манометры, уровнемеры, смотровые стёкла и цифровые табло.

Задача нетривиальная: нужно распознать стрелки, риски, единицы измерения и корректно сложить разряды, а для смотровых стёкол - оценить уровень жидкости с поправкой на перспективу камеры.

Сценарий заточен под обходы промышленных объектов, которыми занимается робот Spot.

Точность достигается за счёт связки визуального ризонинга и исполнения кода.

Модель сначала зумит целевой участок снимка, затем расставляет точки по ключевым элементам шкалы и через код считает пропорции и интервалы.

На задаче чтения приборов Gemini Robotics-ER 1.6 с показывает 93%, без ризонинга - 86%.

🟡Подтянули базовые навыки

🟢Указание точных пиксельных координат стало точнее в счёте, обработке отношений «from-to», построении траекторий и выборе точек захвата.

🟢Заметно вырос успех детекции в мультикамерных сетапах, где сцену одновременно снимают обзорная камера и камера на манипуляторе.

🟢Модель стала лучше сопоставлять виды между собой и во времени, что критично в динамичных сценах: без надёжной детекции завершения шага агент не понимает, повторять ли попытку или переходить к следующему этапу плана.

По безопасности DeepMind заявляет лучший результат в линейке: модель стабильнее соблюдает физические ограничения и точнее распознаёт травмоопасные ситуации (+6% на текстовых сценариях и +10% на видео по сравнению с Gemini 3.0 Flash).

Gemini Robotics-ER 1.6 доступна через Gemini API и Google AI Studio. Deepmind также собрал Colab с примерами промптов для типовых задач воплощенного ризонинга.

@machinelearning

#news #ai #ml

В этом посте есть большое видео, которое не загрузилось в Дзен. Откройте оригинал поста в телеграме, чтобы его посмотреть

Гаджеты и электроника

5,73 млн интересуются