Норвежская компания 1X опубликовала новое видео с человекоподобными роботами на колесах EVE. В нем несколько роботов занимаются уборкой офиса, повинуясь голосовым командам сотрудников: поднимают с пола разбросанные вещи, вытирают тряпкой пролитый на стол напиток, убирают пустой стакан из-под кофе и совершают другие подобные действия. Компания стремится построить робота, который может выполнять множество задач под управлением одной универсальной нейросети. Однако инженеры столкнулись с проблемой забывания при обучении. Когда модель нейронной сети небольшая (менее 100 миллионов параметров), добавление новых данных для улучшения выполнения одной задачи часто негативно влияет на выполнение других выученных задач. Увеличение размера модели может решить эту проблему, но замедляет обучение и усложняет процесс сбора данных.
Чтобы ускорить процесс обучения и создать робота-универсала, способного выполнять множество задач, инженеры 1Х разработали голосовой интерфейс, который позволяет объединять короткие действия, выполняемые небольшими моделями, в более длинные цепочки. Человек-оператор руководит этим процессом, задавая последовательность задач на естественном языке сразу нескольким роботам, а они выполняют их, используя свои базовые навыки. Для пользователя это выглядит как единая система, способная выполнять множество задач, при этом фактическое количество используемых моделей остается скрытым. Таким образом удается отделить улучшение выполнения конкретных задач от объединения отвечающих за них отдельных небольших моделей, в более крупную общую модель, ориентированную на цель. Следующим шагом в этом направлении будет автоматизация предсказания последовательности действий с помощью зрительно-языковых моделей, таких как GPT-4o, VILA и Gemini Vision.