Найти тему
ФУТУРИЗМ | FUTURISM

Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.

Microsoft представила новую модель искусственного интеллекта (ИИ) под названием Kosmos-1, которая, по их утверждению, может анализировать изображения на наличие контента, решать визуальные головоломки, выполнять визуальное распознавание текста, проходить визуальные тесты IQ и понимать инструкции на естественном языке. Технологический гигант считает, что мультимодальный ИИ, который сочетает в себе различные методы ввода, такие как текст, аудио, изображения и видео, является важным шагом на пути к созданию искусственного интеллекта общего назначения, способного выполнять задачи на уровне человека.

Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.
Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.

Исследователи из Microsoft продемонстрировали, как модель анализирует и отвечает на вопросы об изображениях, читает текст с изображения, пишет подписи к изображениям и проходит визуальный IQ-тест с точностью 22-26%. Они назвали систему «Мультимодальной моделью большого языка» (MLLM). Космос-1 принимает ввод в виде серии токенов, а специальные маркеры указывают на начало и конец встраивания закодированного изображения.

Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.
Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.

Устройство для встраивания кодирует текстовые токены и другие способы ввода в векторы, которые затем передаются в декодер. Для токенов ввода используется таблица поиска, чтобы сопоставить их с вложениями. Microsoft обучила Kosmos-1, используя данные из Интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и веб-архив Common Crawl. После обучения исследователи оценили способность «Космос-1» понимать язык, генерировать текст, классифицировать его без оптического распознавания символов, генерировать подписи к изображениям, визуальные ответы на вопросы, ответы на вопросы веб-страницы и классифицировать изображения. Во многих из этих тестов модель превзошла современные аналоги.

Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.
Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.

По данным Microsoft, Космос-1 смог правильно ответить на вопрос теста Raven только в 22% случаев (26% в случае тонкой настройки). Однако это больше, чем процент случайных правильных ответов (17%). Исследователи говорят, что планируют увеличить размер модели, а также интегрировать голосовые возможности. Эта новая модель искусственного интеллекта — захватывающая разработка для Microsoft и области искусственного интеллекта в целом. Комбинируя различные режимы ввода, такие как текст, аудио, изображения и видео, «Космос-1» является отличным примером того, как можно использовать ИИ для создания более похожего на человека понимания мира.

Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.
Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.

Способность анализировать и понимать изображения, решать визуальные головоломки и распознавать текст — все это важные компоненты для создания более комплексной системы искусственного интеллекта, способной выполнять ряд задач на уровне человека. Модель «Космос-1» представляет собой значительный шаг вперед в стремлении создать ИИ общего назначения, который может работать в нескольких модальностях. Более того, решение Microsoft открыть Kosmos-1 для разработчиков — отличный ход. Делая эту технологию доступной для более широкого круга людей и организаций, мы можем ускорить разработку ИИ и приблизиться на один шаг к созданию более совершенных и полезных систем.

Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.
Канал - ФУТУРИЗМ - Футуристический прорыв Microsoft в области мультимодального искусственного интеллекта: Kosmos-1 решает головоломки и распознает текст.

В заключение отметим, что презентация Microsoft модели Kosmos-1 является значительным достижением в области искусственного интеллекта. Комбинируя несколько режимов ввода, эта модель ИИ может анализировать изображения, решать головоломки, распознавать текст, проходить визуальные тесты IQ и понимать инструкции на естественном языке. Решение Microsoft открыть эту технологию для разработчиков — захватывающий шаг, который поможет ускорить разработку ИИ и приблизит нас на один шаг к созданию ИИ общего назначения, способного выполнять задачи на уровне человека.