Добавить в корзинуПозвонить
Найти в Дзене
АРМК

Зачем роботов подсадят на селфи.

Человек расскажет что он там хотел, а камера покажет что лежит и где. Группа исследователей из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) в MIT, вдохновлённая способностью людей обращаться с незнакомыми объектами, разработала систему Feature Fields for Robotic Manipulation («поля функций для роботизированных манипуляций» или просто F3RM), которая помогает роботам идентифицировать близлежащие предметы и хвататься за них. Она также может интерпретировать открытые языковые подсказки людей, что делает этот метод полезным в реальных средах, содержащих тысячи объектов, таких как склады и домашние хозяйства. F3RM изучает и понимает своё окружение посредством простого селфи! Его камера делает 50 изображений в разных позах, что позволяет создать поле нейронного излучения (NeRF) ‒ метод глубокого обучения, который использует двухмерные изображения для построения объёмной сцены. Этот коллаж из фотографий RGB становится своего рода «цифровым двойником» окружающего пространс
Человек расскажет
что он там хотел,
а камера покажет
что лежит и где.

Поля функций для роботизированных манипуляций (F3RM) позволяют роботам интерпретировать открытые текстовые подсказки на естественном языке, помогая машинам манипулировать незнакомыми объектами. Поля трёхмерных функций системы могут быть полезны в средах, содержащих тысячи объектов, таких как склады.
Поля функций для роботизированных манипуляций (F3RM) позволяют роботам интерпретировать открытые текстовые подсказки на естественном языке, помогая машинам манипулировать незнакомыми объектами. Поля трёхмерных функций системы могут быть полезны в средах, содержащих тысячи объектов, таких как склады.

Группа исследователей из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) в MIT, вдохновлённая способностью людей обращаться с незнакомыми объектами, разработала систему Feature Fields for Robotic Manipulation («поля функций для роботизированных манипуляций» или просто F3RM), которая помогает роботам идентифицировать близлежащие предметы и хвататься за них. Она также может интерпретировать открытые языковые подсказки людей, что делает этот метод полезным в реальных средах, содержащих тысячи объектов, таких как склады и домашние хозяйства.

F3RM изучает и понимает своё окружение посредством простого селфи! Его камера делает 50 изображений в разных позах, что позволяет создать поле нейронного излучения (NeRF) ‒ метод глубокого обучения, который использует двухмерные изображения для построения объёмной сцены. Этот коллаж из фотографий RGB становится своего рода «цифровым двойником» окружающего пространства в виде 360-градусного изображения со всем, что находится поблизости.

В дополнение к высокодетализированному полю нейронного излучения, F3RM также создаёт поле признаков для дополнения геометрии семантической информацией. Система наделяет роботов возможностью, условно говоря, «понимать» открытые текстовые подсказки на естественном языке, облегчая тем самым манипуляции машин. Например, если вы попросите робота «поднять высокую кружку», он сможет найти и взять предмет, который лучше всего соответствует этому описанию. Этот подход научит персонализированных роботов идентифицировать окружающую среду и определённые предметы. Можно даже сказать, хоть и с некоторой натяжкой, что для робота разработка выступает этакой системой восприятия ‒ как информационно, так и физически.

«Визуальное восприятие было определено Дэвидом Марром как проблема осознания "смотря что и где есть", ‒ говорит старший автор работы Филипп Изола, доцент кафедры электротехники и информатики MIT и главный исследователь CSAIL.

Исследователи предложили роботу взять Бэймакса, персонажа из диснеевского «Большого героя 6». Хотя F3RM никогда не обучался напрямую брать игрушку мультяшного супергероя, робот использовал своё пространственное восприятие и особенности языка видения из базовой модели, чтобы решить, какой объект схватить и как его поднять. И ему это удалось.

Фактически, эта работа приоткрывает нам двери к созданию и использованию той самой искусственной обслуги и рабочей силы, которой полнятся наши книги и фильмы. Понимание собственного окружения и вольных словесных подсказок от человека при выполнении машинами каких-то задач повлечёт за собой не просто распространение домашней, офисной, специализированной робототехники, что «прям как живая», но и в принципе готовит ей (и нам, и нам!) новый уровень развития.

По материалам АРМК.