Найти тему
Naked Science

«Языковой ИИ» GPT-4 выйдет на следующей неделе с поддержкой изображений и видео

   ©Metro-Goldwyn-Mayer
©Metro-Goldwyn-Mayer

Предыдущее поколение алгоритма обработки естественного языка — GPT-3 — в свое время наделало шуму. Искусственный интеллект генерировал тексты, которые с минимальной доработкой можно было публиковать так, будто они созданы человеком. Следующим шагом стал виртуальный собеседник ChatGPT, который до сих пор не перестает удивлять даже специалистов. На этом фоне появился анонс выхода совершенно новой языковой модели GPT-4, и она обещает настоящую революцию в отрасли.

Громкая новость прозвучала как бы невзначай из уст Андреаса Брауна (Andreas Braun), технического директора Microsoft Germany. Как пишет издание Heise Online, он выступал на мероприятии AI in Focus — Digital Kickoff в четверг, 9 марта. Во время презентации представители компании рассказывали о больших языковых моделях (LLM) вроде серии GPT как о прорывных технологиях, которые радикально меняют рынок. В числе прочего зашла речь и о партнерстве Microsoft с OpenAI.

Именно в этом контексте Браун анонсировал «надвигающийся релиз GPT-4 на следующей неделе». Правда, каких-либо деталей и подробностей о революционной нейросети он не сообщил. Лишь в общих чертах обрисовал наиболее заметные эволюционные изменения алгоритма.

В первую очередь модель будет поддерживать «буквально все языки». Логично предположить, что не вообще все семь с лишним тысяч существующих языков мира, но первые несколько десятков самых популярных точно реализованы. По словам Брауна, нейросети можно будет поставить задачу на немецком и получить ответ на итальянском. Речь идет не о переводе на лету, а о формулировании текста сразу в требуемой языковой среде.

Во-вторых, GPT-4 стал мультимодальным, то есть способен обрабатывать не только «чистый» текст, но и распознавать его в аудио, изображениях и видео. Из сообщений прессы не до конца ясно, но складывается впечатление, что модель сможет выдавать ответ в той же форме.

Пожалуй, наиболее любопытный элемент мероприятия, связанный с GPT-4, — небольшие намеки на практическое применение модели. Браун, опять же, не вдавался в подробности, но рассказал, что этот искусственный интеллект уже проходит тестирование в различных приложениях для клиентов Microsoft Azure.

Например, для одной из компаний создали решение, подводящее итог телефонного разговора. Это сэкономит крупному call-центру порядка 500 рабочих часов операторов в день. Создание прототипа на основе GPT-4 заняло менее двух часов и потребовало усилий всего одного разработчика.

Применение языковой модели бизнес-клиентами рассматривается в трех основных направлениях: обработка голосовых запросов по телефону, помощь в документообороте, а также ответы на вопросы клиентов, требующие обращения к закрытым от посторонних знаниям. Фактически это автоматизация целого класса задач, которые сейчас выполняют сотни тысяч операторов центров поддержи пользователей.

Напомним, GPT (Generative Pre-trained Transformer) — семейство нейросетевых алгоритмов для обработки естественного языка, разработанных компанией OpenAI. С конца 2015 года эта фирма выпустила несколько продуктов, среди которых наиболее известны DALL-E, GPT-3, ChatGPT (на базе GPT-3.5) и Codex. В 2019 году Microsoft предоставила компании финансирование в размере миллиарда долларов, а к январю 2023-го эта сумма, по разным оценкам, выросла еще на 10 миллиардов.