С момента своего появления ChatGPT завоевал сердца миллионов пользователей по всему миру. Недавно OpenAI анонсировала очередное революционное обновление – новый голосовой режим работы и модель GPT-4o, для которой голос – это лишь один тип мультимодальных данных, наравне с текстом и изображениями.
Ранее для реализации голосового режима использовалась отдельная модель, переводящая голос в текст и обратно и передающая этот текст на вход ChatGPT, и, соответственно, терялись такие параметры голоса, как тембр, громкость, эмоциональность и т.д.
Это событие обещает изменить наше представление о взаимодействии с искусственным интеллектом, делая его еще более естественным и доступным, стирая грань между общением людей и машин. К сожалению, мы можем пока судить только по видеороликам, представленными OpenAI, и ждем возможность попробовать вживую в ближайшие недели.
Кино предсказывает будущие технологии
Чтобы представить, на что это похоже, можно вспомнить культовые фильмы – "Космическая Одиссея 2001 года" и его знаменитый искусственный интеллект HAL 9000, который мог общаться голосом с экипажем корабля, выполнять их команды и даже принимать сложные решения, и фильм "Она" (Her), где искусственный интеллект Саманта становится не просто ассистентом, а полноценным собеседником и другом для главного героя.
В фильме "Она" искусственный интеллект демонстрирует способность понимать и отвечать на человеческие эмоции до такой степени, что главный герой влюбляется в ИИ.
Скачок вперед
GPT-4o – это не просто обновление, это скачок вперед UI-/UX-общения с пользователем. Если раньше работа с голосовым режимом была похожа на работу полудуплексной радиостанции (когда говорит или отвечает только один и нужно ждать полного ответа от модели, чтобы задать новый вопрос), то сейчас полное ощущение телефонного разговора: модель значительно снижает задержку при голосовых запросах, что обеспечивает плавное и мгновенное взаимодействие.
Поддержка более 50 языков делает модель универсальной и доступной для людей из разных уголков планеты и фактически создает универсальный голосовой переводчик. Более того, голос модели может быть эмоциональным, менять тембр, скорость и другие параметры, а также быть мужским или женским. Она может даже напевать, добавляя интерактивность и креативность в общение.
С GPT-4o общение с искусственным интеллектом стало как никогда естественным. Представьте, что вы можете задавать вопросы и получать ответы в режиме реального времени, используя голосовые команды. Модель распознает интонации, понимает контекст и отвечает так, будто вы разговариваете с живым человеком. Например, вы можете спросить, как приготовить любимое блюдо, и получить пошаговую инструкцию, не отвлекаясь от готовки.
Давайте рассмотрим некоторые варианты применения, которые сильно могут изменить соответствующие отрасли и рынки.
Образование
GPT-4o может стать незаменимым помощником в обучении, а в некоторых случаях и заменить преподавателя.
Представьте студента, который готовится к важному экзамену. Вместо сухого заучивания материалов он может общаться с GPT-4o, задавая сложные вопросы и получая подробные объяснения. Это интерактивное обучение помогает лучше понять и усвоить материал. Кроме того, GPT-4o может помогать в изучении иностранных языков, демонстрируя корректное произношение и исправляя ошибки. Все чаще студенты университетов или школьники прямо на лекции уточняют информацию, которую дает учитель. GPT-4o может также помочь с тестированием процесса усвоения материала, придумывая задания и объясняя ошибки.
Модель может быть замечательным инструментом и для учителей: одна моя знакомая учительница английского таким образом готовит задания для уроков, например написать 100 предложений во времени Present Perfect или составить шуточный диалог между Гарри Поттером и Волан-де-Мортом, где бы использовались условные предложения второго и третьего типов; другой знакомый, логопед, с помощью GPT-4o пишет небольшие стишки для малышей, где прорабатываются определенные звуки.
Воспитание детей
GPT-4o может стать полезным инструментом для родителей и учителей в общении с детьми. Модель может помогать детям в обучении, отвечая на их вопросы и объясняя сложные концепции простым языком. Кроме того, GPT-4o может создавать интерактивные истории, поддерживая интерес детей к чтению и развитию воображения. Например, модель может придумать историю о супергерое, который учит детей чистить зубы.
Во время вечерних игр с детьми GPT-4o может стать настоящим другом для всей семьи. Например, "Привет, ребята! Готовы к вечерней сказке? Сегодня я расскажу вам о приключениях храброго пиратского капитана. А после этого можно поиграть в новую игру, которую я придумал специально для вас!". Голос не только развлекает, но и обучает детей, делая времяпрепровождение дома более увлекательным и познавательным.
Бизнес
В бизнесе GPT-4o становится очень полезным инструментом, упрощая и ускоряя рутинные задачи. Представьте себе аналитика, который с помощью голосовых команд может запросить анализ рыночных данных и получить отчет в считанные секунды, не запрашивая программистов, которым для реализации такого отчета потребуются дни или даже недели. Руководители могут использовать модель для планирования встреч, создания презентаций и проведения переговоров. Все это сделает работу более эффективной и продуктивной.
Туризм
Туриндустрия может существенно выиграть от внедрения GPT-4o. Представьте, что вы находитесь на экскурсии, а вместо гида вас сопровождает голосовой помощник, который отвечает на все ваши вопросы о достопримечательностях: "Добро пожаловать в Париж! Вы сейчас находитесь у Эйфелевой башни, построенной в 1889 г. Хотите узнать больше о ее истории или, возможно, получить советы по лучшим местам для фотографий?"
ИИ-помощник предложит интерактивные сюжеты, например игры или викторины, делая экскурсии более увлекательными и информативными. Кроме того, предложенная информация будет значительно более достоверной и полной, чем у любого гида.
Ритейл
В сфере ритейла GPT-4o сможет заменить продавца-консультанта. Представьте себе магазин, где вы, подойдя к любому товару, зададите вопрос голосовому ассистенту: "Подскажите, какой состав у этого продукта и как его лучше использовать?" или "Какие скидки сейчас действуют на эту одежду?"
Ассистент не только предоставит всю необходимую информацию, но и поможет сделать выбор, подсказав, какие товары лучше сочетаются между собой или предложив альтернативные варианты.
Повседневная жизнь
В повседневной жизни GPT-4o способен стать вашим личным ассистентом. Представьте, что вы проснулись утром и, не вставая с кровати, с помощью голосовой команды узнаете прогноз погоды, последние новости и ваше расписание на день. Или вы готовите ужин и спрашиваете у модели, как приготовить новое блюдо, а она пошагово проводит вас через весь процесс. GPT-4o поможет разобраться с настройками умных устройств, управляя ими через голосовые команды.
И это лишь малая часть возможных применений голосовых интерфейсов.
Первая ласточка
В заключение стоит отметить, что голосовые интерфейсы будут играть не менее важную роль, чем графические пользовательские интерфейсы (GUI). Они открывают доступ к технологиям для широкой аудитории, включая людей с ограниченными возможностями, которые могут испытывать трудности при использовании традиционных интерфейсов.
Голосовые интерфейсы будут обеспечивать более естественное и интуитивное взаимодействие с устройствами, что особенно важно в эпоху Интернета вещей, когда требуется управление множеством умных устройств.
Более того, голосовые технологии позволят пользователям выполнять задачи быстрее и эффективнее, освободив руки и позволив сосредоточиться на других делах. Они будут способствовать созданию более персонализированных и эмоционально насыщенных взаимодействий, что усилит пользовательский опыт и повысит удовлетворение от использования современных технологий.
Модель GPT-4o – первая ласточка подобного уровня голосовых интерфейсов, но я думаю, что в ближайшие полгода-год, у всех основных игроков будут подобные модели.
Алексей Коржебин
Эксперт редакции журнала "Системы безопасности"
Фото ru.freepik.com