Человек расскажет что он там хотел, а камера покажет что лежит и где. Группа исследователей из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) в MIT, вдохновлённая способностью людей обращаться с незнакомыми объектами, разработала систему Feature Fields for Robotic Manipulation («поля функций для роботизированных манипуляций» или просто F3RM), которая помогает роботам идентифицировать близлежащие предметы и хвататься за них. Она также может интерпретировать открытые языковые подсказки людей, что делает этот метод полезным в реальных средах, содержащих тысячи объектов, таких как склады и домашние хозяйства. F3RM изучает и понимает своё окружение посредством простого селфи! Его камера делает 50 изображений в разных позах, что позволяет создать поле нейронного излучения (NeRF) ‒ метод глубокого обучения, который использует двухмерные изображения для построения объёмной сцены. Этот коллаж из фотографий RGB становится своего рода «цифровым двойником» окружающего пространс