Найти тему
ТехноВзгляд

Новейшие чат-боты с искусственным интеллектом могут работать с текстом, изображениями и звуком, и вот как это происходит

Оглавление

Новые "мультимодальные" программы ИИ способны не только отвечать на текст - они также анализируют изображения и общаются вслух.

Чуть более года назад был впервые выпущен ChatGPT от OpenAI. Его появление положило начало эпохе безостановочных заголовков об искусственном интеллекте и ускорило разработку конкурирующих больших языковых моделей (Large Language Models) от Google, Meta и других технологических гигантов. С тех пор эти чат-боты продемонстрировали впечатляющую способность генерировать текст и код, хотя и не всегда точно. А теперь на очереди мультимодальные ИИ, способные анализировать не только текст, но и изображения, звук и многое другое.

На прошлой неделе, спустя несколько месяцев после того, как компания впервые объявила о таких возможностях, OpenAI впервые выпустила для платных подписчиков мультимодальную версию ChatGPT, работающую на базе LLM GPT-4. Компания Google еще в мае начала внедрять в некоторые версии своего чатбота Bard, работающего на базе LLM, функции, аналогичные функциям работы с изображениями и звуком, которые предлагает новый GPT-4. Компания Meta также объявила о значительных успехах в области мультимодальности весной этого года. Несмотря на то, что эта технология находится в зачаточном состоянии, она способна решать самые разнообразные задачи.

ЧТО МОЖЕТ СДЕЛАТЬ МУЛЬТИМОДАЛЬНЫЙ ИИ?

Один американский научный журнал протестировал два различных чат-бота, использующих мультимодальные LLM: версию ChatGPT на базе обновленного GPT-4 (GPT-4 with vision, или GPT-4V) и Bard, работающего на базе модели Google PaLM 2. Обе системы могут вести голосовые разговоры в режиме громкой связи, используя только звук, описывать сцены на изображениях и расшифровывать строки текста на картинке.

Эти возможности имеют огромное количество применений. В этом тесте ChatGPT, используя только фотографию чека и двухстрочную подсказку, точно разделил сложный счет в баре и рассчитал сумму задолженности для каждого из четырех человек, включая чаевые и налог. В общей сложности задача заняла менее 30 секунд. Bard справился почти так же хорошо, но одну цифру "9" он интерпретировал как "0", что привело к ошибке при подсчете итоговой суммы. В другом испытании, получив фотографию заполненной книжной полки, оба чат-бота предложили подробные описания характера и интересов гипотетического владельца, почти как гороскопы, составленные искусственным интеллектом. Оба чат-бота определили Статую Свободы по одной фотографии, сделали вывод, что снимок был сделан из офиса в нижней части Манхэттена, и предложили точные указания от места, где находился фотограф, до достопримечательности (правда, подсказки ChatGPT были более подробными, чем у Bard). Кроме того, ChatGPT превзошел Bard в точности определения насекомых по фотографиям.

Для людей с ограниченными возможностями применение таких технологий особенно интересно. В марте OpenAI начал тестирование своей мультимодальной версии GPT-4 на базе компании Be My Eyes, которая предоставляет бесплатную услугу описания через одноименное приложение для слепых и слабовидящих людей. Первые испытания прошли достаточно успешно, и в настоящее время компания Be My Eyes занимается распространением версии своего приложения с поддержкой искусственного интеллекта на всех своих пользователей.

"Мы получаем исключительно положительные отзывы, - говорит Джеспер Хвирринг Хенриксен, главный технический директор Be My Eyes.

Поначалу было много очевидных проблем, таких как плохо расшифрованный текст или неточные описания, содержащие галлюцинации ИИ. По словам Хенриксена, OpenAI удалось устранить эти первоначальные недостатки, однако ошибки все еще встречаются, но уже реже. В результате "люди говорят о восстановлении своей независимости", - говорит он.

КАК РАБОТАЕТ МУЛЬТИМОДАЛЬНАЯ ИИ?

В новой волне чат-ботов инструменты выходят за рамки слов. Однако в их основе по-прежнему лежат модели искусственного интеллекта, построенные на языке. Как такое возможно? Хотя отдельные компании неохотно делятся информацией о том, что именно лежит в основе их моделей, эти корпорации - не единственные группы, работающие над мультимодальным искусственным интеллектом. Другие исследователи ИИ имеют достаточно полное представление о том, что происходит за кулисами.

По словам Дуве Киела, адъюнкт-профессора Стэнфордского университета, где он читает курсы по машинному обучению, и генерального директора компании Contextual AI, существует два основных пути перехода от текстового ИИ к ИИ, реагирующему также на визуальные и звуковые подсказки. В самом базовом методе, поясняет Кила, модели ИИ, по сути, накладываются друг на друга. Пользователь вводит изображение в чатбот, но оно проходит фильтрацию через отдельный ИИ, созданный специально для того, чтобы выдавать подробные подписи к изображениям. (Затем это текстовое описание возвращается в чатбот, который отвечает на переведенный запрос.

В отличие от этого, "другой способ заключается в гораздо более тесном взаимодействии", - говорит Кила.

Компьютерные инженеры могут вставлять фрагменты одного алгоритма ИИ в другой, объединяя инфраструктуру компьютерного кода, лежащую в основе каждой модели". По словам Килы, это "похоже на прививку одной части дерева к другому стволу". После этого привитая модель переобучается на наборе мультимедийных данных, включающем картинки, изображения с подписями и только текстовые описания, пока ИИ не усвоит достаточно шаблонов для точного связывания визуальных представлений и слов. Эта стратегия более ресурсоемкая, чем первая, но она позволяет получить еще более способный ИИ. Кила предполагает, что Google использовал в Bard первый метод, в то время как OpenAI при создании GPT-4, возможно, опирался на второй. Эта идея потенциально объясняет различия в функциональности двух моделей.

Независимо от того, как разработчики объединяют различные модели ИИ, под капотом происходит один и тот же общий процесс. Основным принципом работы LLM является предсказание следующего слова или слога во фразе. Для этого они опираются на архитектуру "трансформатора" (буква "Т" в GPT). По словам Руслана Салахутдинова, специалиста по информатике из Университета Карнеги-Меллон, нейронные сети такого типа берут что-то вроде написанного предложения и превращают его в ряд математических отношений, выраженных в виде векторов. Для нейронной сети-трансформатора предложение - это не просто набор слов, а целая сеть связей, определяющих контекст. Это позволяет создать гораздо более человекоподобных ботов, способных понимать несколько смыслов, следовать грамматическим правилам и имитировать стиль. Чтобы объединить или сложить модели ИИ, алгоритмы должны преобразовать различные входные данные (будь то визуальные, звуковые или текстовые) в один и тот же тип векторных данных на пути к выходу. По словам Салахутдинова, в некотором роде это означает, что нужно взять два набора кода и "научить их разговаривать друг с другом". В свою очередь, пользователи могут общаться с этими ботами по-новому.

ЧТО ДАЛЬШЕ?

Многие исследователи рассматривают текущий момент как начало возможного. Как только вы начнете объединять, интегрировать и совершенствовать различные виды ИИ, стремительный прогресс не заставит себя ждать. Кила представляет себе недалекое будущее, в котором модели машинного обучения смогут легко реагировать, анализировать и генерировать видео и даже запахи. Салахутдинов полагает, что "в ближайшие 5-10 лет у вас просто появится персональный помощник ИИ". Такая программа, получив короткую подсказку, сможет решать любые задачи - от полноценного телефонного обслуживания клиентов до сложных исследовательских задач.

Мультимодальный ИИ - это не то же самое, что искусственный общий интеллект, святая цель машинного обучения, когда компьютерные модели превосходят человеческий интеллект и возможности. Однако мультимодальный ИИ - это "важный шаг" на пути к нему, считает Джеймс Зоу (James Zou), специалист по информатике из Стэнфордского университета. Человек обладает целым рядом органов чувств, с помощью которых он познает мир. Предположительно, чтобы достичь общего ИИ, компьютеру потребуется то же самое.

По словам Зоу, какими бы впечатляющими и захватывающими они ни были, мультимодальные модели имеют много тех же проблем, что и их предшественники, ориентированные только на один объект.

"Одна большая проблема - это проблема галлюцинаций, - отмечает он. Как мы можем доверять ИИ-помощнику, если он в любой момент может фальсифицировать информацию? Кроме того, возникает вопрос конфиденциальности. С такими информационно насыщенными данными, как голос и визуальные образы, еще более конфиденциальная информация может случайно попасть к ботам, а затем стать предметом утечки или взлома".

Зоу все же советует пробовать эти инструменты с осторожностью.

"Вероятно, не стоит напрямую передавать чатботу свои медицинские записи", - говорит он.