Microsoft анонсировала создание нового искусственного интеллекта Magma, который способен одновременно обрабатывать визуальные данные, текст и управлять физическими объектами. Этот проект стал результатом совместных усилий исследователей из Microsoft, KAIST, Университета Мэриленда, Университета Висконсин-Мэдисон и Университета Вашингтона.
Модель Magma отличается от существующих аналогов, таких как PALM-E и RT-2 от Google или ChatGPT for Robotics от Microsoft. Вместо использования отдельных систем для восприятия и управления, Magma объединяет все эти возможности в одну интегрированную платформу. Она не только анализирует мультимодальные данные, но и способна на основе полученной информации предпринимать действия, включая навигацию по интерфейсам и манипуляции с физическими объектами.
Основой системы являются два ключевых компонента: Set-of-Mark и Trace-of-Mark. Первый компонент присваивает числовые метки интерактивным элементам, что позволяет идентифицировать объекты, с которыми можно взаимодействовать. Второй — анализирует схемы движения на основе видеоданных, что даёт возможность системе выполнять задачи, такие как управление роботизированными манипуляторами или навигация по интерфейсам.
Результаты тестирования Magma-8B впечатляют: в стандартном тесте VQAv2, который проверяет способность системы отвечать на вопросы по содержимому изображений, модель набрала 80,0 балла. В тесте POPE, оценивающем точность определения распространённых объектов на изображениях, система продемонстрировала результат 87,4 балла, опередив аналогичные модели. Однако в некоторых тестах, например, в VQAv2, Magma уступает другим системам, таким как LLaVA-Next (81,8 балла).
Цзяньвэй Ян, исследователь проекта Magma, пояснил, что название модели расшифровывается как M(ultimodal) Ag(entic) M(odel) at Microsoft (Rese)A(rch).
Microsoft планирует выложить исходный код Magma на GitHub, предоставив возможность исследователям и разработчикам работать над дальнейшим развитием технологии. Несмотря на достижения, система ещё имеет ограничения, особенно в сложных многоступенчатых процессах принятия решений, над улучшением которых команда продолжает работать.
Выпуск Magma свидетельствует о быстром прогрессе в области искусственного интеллекта, при этом продолжается активное исследование и развитие таких технологий без призывов к приостановке разработки ИИ.