Есть задачи, которые легко даются человеку, но становятся сложными для машины. Вероятно, вы без труда сможете сложить продукты в багажник или накрыть стол, но робот спотыкается о многочисленные препятствия, которые мы даже не замечаем. Команда Массачусетского технологического института разработала новый инструмент генеративного искусственного интеллекта, который может легко выполнять различные задачи в трехмерном пространстве, что, наконец, может избавить людей от необходимости заниматься упаковкой и перемещением вещей.
Роботы легко понимают, как перемещать предметы из одного места в другое, особенно если они имеют одинаковую форму и вес. Но с появлением разнообразия возникают некоторые проблемы. Например, при упаковке продуктов вы не хотите, чтобы тяжелые вещи находились сверху хрупких. Если вы накрываете на стол, вам нужно убедиться, что вилка и нож находятся рядом друг с другом, но они также должны находиться рядом с тарелкой и так далее. Традиционные ИИ-роботы решают эти задачи последовательно, программируя часть движений для преодоления одного препятствия и проверяя, не нарушает ли они какие-либо другие ограничения. Всего несколько правил и большинство систем зависает или выдает плохо оптимизированные решения.
Новая система Массачусетского технологического института основана на генеративном искусственном интеллекте в виде диффузионной модели. Инструмент Diffusion-CCSP содержит набор моделей, каждая из которых обучена одному действию. Этот подход требует меньше обучающих данных, чем модель «все в одном». Затем эти модели объединяются, чтобы генерировать общие решения, которые быстрее учитывают все необходимые правила для упаковки и перемещения предметов.
Как и все модели искусственного интеллекта, диффузионные модели обучаются на основе больших наборов данных. Когда Diffusion-CCSP сталкивается с организационной проблемой и ограничениями, она начинает со случайного (и поэтому очень плохого) решения. Затем она вносит небольшие итеративные улучшения для уточнения решений, напоминающих обучающие выборки. Таким образом, Diffusion-CCSP лучше осознает взаимосвязь ограничений, заданных человеком. Возвращаясь к примеру с сервировкой стола, робот может понять, что вилка и нож должны находиться рядом друг с другом и где на столе должен находиться весь набор.
Команда ученых сначала проверила алгоритм на практике (видео выше), а затем перешла к реальному миру. Робот мог помещать в коробку 2D-треугольники, различные 2D-фигуры и 3D-объекты, соблюдая при этом различные ограничения. Этот процесс был намного быстрее, чем другие подходы, создавая больше решений, которые были стабильными и не содержали столкновений. Результаты были опубликованы ведущим автором Чжутянем Яном и его командой на сайте arXiv.
Подобная методика может быть использована и для решения других задач управления роботами, например, при перемещении по комнате. Модульная структура Diffusion-CCSP означает, что для новых задач, возможно, даже не потребуются новые обучающие данные.