Найти тему
АЙТИ НЕБО

Мультимодальность: новый рубеж искусственного интеллекта

Оглавление

Чаще всего термин модальность ассоциируется с некими ощущениями или каналами связи. Поэтому мультимодальность относится к множеству модальных данных, таких как изображение, текст и речь. Мультимодальный искусственный интеллект — это новая область ИИ, которая позволяет обрабатывать и связывать мультимодальные данные.

Мультимодальность против одномодальности

Традиционно системы ИИ являются одномодальными. Они предназначены для выполнения конкретной задачи, например обработка изображений и распознавание речи. Если ИИ работает с одним источником информации, то система игнорирует важные контекстные и вспомогательные данные. Мультимодальный ИИ утверждает, что используя различные модальности данных, мы можем лучше понимать и анализировать информацию.

-2

Проблемы мультимодального обучения

Одновременная обработка мультимодальных данных крайне важна для развития ИИ. Она даст возможность обращаться к объекту различными способами, например: визуальным, текстовым либо голосовым. Однако, это требует всестороннего понимания различных модальностей, взаимосвязей между ними, а также найти решение для нескольких ключевых задач:

  • Представление: способность ИИ представлять мультимодальные данные с помощью «Обоснованных представлений» — общего языка для всех мультимодальных данных.
  • Перевод: способность ИИ переводить одну модальность в другую.
  • Ассоциации: способность ИИ для поиска ассоциаций между элементами разных модальностей.
  • Слияние: способность ИИ совместно обрабатывать мультимодальные данные для выполнения задачи прогнозирования.
  • Совместное обучение: способность ИИ передавать знания между модальностями.

Мультимодальные системы обучения

Решая описанные проблемы, исследователи ИИ недавно добились захватывающих прорывов в мультимодальном обучении. Ниже приведены некоторые успешные примеры:

  • DALL.E — искусственный интеллект, разработанный OpenAI для эффективного преобразования текста в изображение. Система распознает широкий спектр понятий, произносимых на естественном языке. ИИ по сути представляет собой нейронную сеть, состоящую из 12 миллиардов параметров.
-3
  • ALIGN — это модель искусственного интеллекта, обученная Google на зашумленном наборе данных с большим количеством пар изображение-текст. Модель достигла наилучшей точности в нескольких тестах поиска изображений и текста.
  • CLIP — еще одна мультимодальная система искусственного интеллекта, разработанная OpenAI для успешного выполнения широкого набора задач визуального распознавания. Имея набор категорий, описанных на естественном языке, CLIP может быстро классифицировать изображение по одной из этих категорий.
  • MURAL — это модель искусственного интеллекта, разработанная Google AI для сопоставления изображения, текста и перевода одного языка на другой. В модели используется многозадачное обучение, применяемое к парам изображение-текст в сочетании с парами перевода на более чем 100 языках.
-4
  • VATT — недавний проект Google AI по созданию мультимодальной модели на основе видео-аудио-текста. VATT может делать прогнозы мультимодальностей на основе необработанных данных. Он не только генерирует описания событий в видео, но также может подтягивать видео по запросу, классифицировать аудиоклипы и идентифицировать объекты на изображениях.
  • FLAVA — модель, обученная Meta на изображениях и 35 языках. Хорошо зарекомендовала себя во множестве мультимодальных задачах.
  • NUWA — это совместное предприятие Microsoft Research и Пекинского университета, которое занимается генерацией изображений и видео для задач по созданию мультимедиа. По текстовой подсказке или эскизу модель может предсказать следующий видеокадр и заполнить неполные изображения.
  • Florence выпущена исследовательской компанией Microsoft, способной моделировать пространство, время и модальность. Модель может решать многие популярные задачи видеоязыка.

Кросс-модальные приложения

Недавнее развитие мультимодального ИИ привело к появлению множества кросс-модальных приложений. Некоторые из этих популярных приложений:

  • Генератор описания к изображениям: Генератор используется для помощи людям с нарушениями зрения. Он может автоматизировать и ускорить процесс создания скрытых субтитров для производства цифрового контента.
  • Генератор изображения из текста: Его можно рассматривать как обратный генератор описания к изображению. В этом случае, имея на входе текст, ИИ может сгенерировать изображение.
-5
  • Визуальный ответ на вопрос (VQA): В VQA модель принимает изображение и текстовый вопрос в качестве входных данных и генерирует текстовый ответ в качестве вывода. VQA отличается от традиционных ответов на вопросы НЛП, потому что анализ VQA выполняется на основе содержимого изображения, тогда как НЛП выполняется на основе текста.
  • Визуально-языковое представление: Веб-поиск — еще одно увлекательное применение мультимодального ИИ, когда при запросе поисковая система идентифицирует источники на основе нескольких модальностей. Примером такой системы является модель Google ALIGN.
  • Синтез текста в речь: Технология используется со многими персональными цифровыми устройствами, такими как компьютеры, смартфоны и планшеты.
-6
  • Преобразование речи в текст: Эта технология предназначена для распознавания разговорной речи и перевода ее в текстовый формат. Она используется во многих приложениях, таких как цифровые помощники (например, Apple Siri и Google Assistant) и технологии с поддержкой речи (такие, как веб-сайты и пульты телевизора).
-7

Вывод

Мы, люди, имеем врожденную способность обрабатывать несколько модальностей. Переход к мультимодальному обучению в ИИ может развернуть давнее стремление науки перейти от статистического анализа одной модальности (изображений, текста или речи) к многогранному пониманию нескольких модальностей и их взаимодействия.