Найти в Дзене
БРИ СТОН

Microsoft представила Magma — ИИ, объединяющий восприятие и управление физическими объектами

Microsoft анонсировала создание нового искусственного интеллекта Magma, который способен одновременно обрабатывать визуальные данные, текст и управлять физическими объектами. Этот проект стал результатом совместных усилий исследователей из Microsoft, KAIST, Университета Мэриленда, Университета Висконсин-Мэдисон и Университета Вашингтона.

Модель Magma отличается от существующих аналогов, таких как PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft. Вместо использования отдельных систем для восприятия и управления, Magma объединяет все эти возможности в одну интегрированную платформу. Она не только анализирует мультимодальные данные, но и способна на основе полученной информации предпринимать действия, включая навигацию по интерфейсам и манипуляции с физическими объектами.

-2

Основой системы являются два ключевых компонента: Set-of-Mark и Trace-of-Mark. Первый компонент присваивает числовые метки интерактивным элементам, что позволяет идентифицировать объекты, с которыми можно взаимодействовать. Второй — анализирует схемы движения на основе видеоданных, что даёт возможность системе выполнять задачи, такие как управление роботизированными манипуляторами или навигация по интерфейсам.

Результаты тестирования Magma-8B впечатляют: в стандартном тесте VQAv2, который проверяет способность системы отвечать на вопросы по содержимому изображений, модель набрала 80,0 балла. В тесте POPE, оценивающем точность определения распространённых объектов на изображениях, система продемонстрировала результат 87,4 балла, опередив аналогичные модели. Однако в некоторых тестах, например, в VQAv2, Magma уступает другим системам, таким как LLaVA-Next (81,8 балла).

-3

Цзяньвэй Ян, исследователь проекта Magma, пояснил, что название модели расшифровывается как M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch).

Microsoft планирует выложить исходный код Magma на GitHub, предоставив возможность исследователям и разработчикам работать над дальнейшим развитием технологии. Несмотря на достижения, система ещё имеет ограничения, особенно в сложных многоступенчатых процессах принятия решений, над улучшением которых команда продолжает работать.

Выпуск Magma свидетельствует о быстром прогрессе в области искусственного интеллекта, при этом продолжается активное исследование и развитие таких технологий без призывов к приостановке разработки ИИ.