1038 подписчиков

Система с искусственным интеллектом может говорить и слушать одновременно

19 июля19 июл

6 мин

Первая общедоступная японская диалоговая.

Как разработать систему искусственного интеллекта, которая идеально имитирует то, как говорят люди? Исследователи из Университета Нагои в Японии сделали значительный шаг вперед для достижения этой цели. Они создали J-Moshi, первую общедоступную систему искусственного интеллекта, специально разработанную для японских диалоговых моделей.

J-Moshi улавливает естественный ход разговора на японском языке, который часто сопровождается короткими вербальными ответами, известными как «айдзучи», которые носители японского языка используют во время разговора, чтобы показать, что они активно слушают и вовлечены. Такие ответы, как «Sou desu ne» (именно так) и «Naruhodo» (понятно), используются чаще, чем аналогичные ответы на английском языке.

Традиционный ИИ испытывает трудности с использованием айдзучи, потому что он не может говорить и слушать одновременно. Эта возможность особенно важна для естественно звучащих диалогов японского искусственного интеллекта. Следовательно, J-Moshi стал очень популярным среди носителей японского языка, которые распознают и ценят его естественные манеры разговора.

Сборка японской модели Моши
Команда разработчиков во главе с исследователями из лаборатории Хигасинака в Высшей школе информатики создала J-Moshi, адаптировав англоязычную модель Moshi, созданную некоммерческой лабораторией Kyutai. Процесс занял около четырех месяцев и включал в себя обучение системы с использованием нескольких наборов японских речевых данных. Исследование опубликовано на сервере препринтов arXiv.

Самый большой набор данных был получен из J-CHAT, крупнейшего общедоступного японского диалогового набора, созданного и выпущенного Токийским университетом. Он содержит около 67 000 часов аудио из подкастов и YouTube. Кроме того, команда использовала меньшие, но более качественные наборы данных диалогов, некоторые из которых были собраны в лаборатории, а другие датируются 20–30 годами. Чтобы увеличить свои обучающие данные, исследователи также преобразовали письменные разговоры в чате в искусственную речь с помощью программ преобразования текста в речь, которые они разработали для этой цели.

В январе 2024 года J-Moshi привлек к себе значительное внимание, когда демонстрационные видеоролики стали вирусными в социальных сетях. Помимо своей технической новизны, он имеет возможное практическое применение в изучении языков. Например, помочь людям, не являющимся носителями языка, практиковать и понимать естественные японские разговорные манеры.

Исследовательская группа также изучает коммерческое применение в колл-центрах, медицинских учреждениях и обслуживании клиентов. Они отмечают, что адаптация системы к специализированным областям или отраслям затруднена из-за ограниченной доступности данных о японской речи по сравнению с ресурсами, доступными для английского.

Руководитель исследовательской группы, профессор Рюитиро Хигасинака, привносит уникальный взгляд на академические исследования ИИ, проработав 19 лет корпоративным исследователем в корпорации NTT, прежде чем присоединиться к Университету Нагои пять лет назад.

Во время своей работы в отрасли он работал над потребительскими диалоговыми системами и голосовыми агентами, в том числе над проектом по реализации функции вопрос-ответ для Shabette Concier, службы голосовых агентов от NTT DOCOMO. В 2020 году он создал собственную лабораторию в Высшей школе информатики Университета Нагои.

Его лаборатория, состоящая из 20 человек, теперь решает задачи, которые объединяют теоретические исследования и практическое применение, от понимания времени разговора на японском языке до развертывания руководств с искусственным интеллектом в общественных местах, таких как аквариумы.

«Такие технологии, как J-Moshi, могут быть применены к системам, работающим с людьми-операторами. Например, наши роботы-гиды в аквариуме NIFREL в Осаке могут самостоятельно справляться с повседневными взаимодействиями и легко связывать посетителей с людьми-операторами для решения сложных вопросов или когда требуется специализированная помощь», — сказал профессор Хигасинака. «Наша работа является частью национального проекта Moonshot Канцелярии Кабинета министров, направленного на повышение качества обслуживания с помощью передовых систем сотрудничества искусственного интеллекта и человека».

Возможности и проблемы взаимодействия человека и робота
Профессор Хигасинака объяснил уникальные проблемы, стоящие перед японскими исследованиями в области искусственного интеллекта: «Япония страдает от нехватки речевых ресурсов, что ограничивает возможности исследователей по обучению диалоговых систем искусственного интеллекта. Также необходимо учитывать проблемы конфиденциальности».

Нехватка данных вынуждала к творческим решениям, таким как использование компьютерных программ для разделения смешанных голосов в записях подкастов на отдельные треки динамиков, необходимые для обучения.

В настоящее время диалоговые системы испытывают трудности со сложными социальными ситуациями, особенно когда необходимо учитывать межличностные отношения и физическую среду. Визуальные препятствия, такие как маски или головные уборы, также могут ухудшить их работу, поскольку они закрывают важные визуальные сигналы, такие как мимика. Тестирование в аквариуме NIFREL в Осаке показало, что иногда ИИ не может справиться с вопросами пользователей и нуждается в людях-операторах, которые вмешиваются и берут разговор на себя.

В то время как J-Moshi представляет собой значительное достижение в захвате естественных японских разговорных моделей с перекрывающейся речью и междометиями айдзучи, эти ограничения означают, что в настоящее время ему требуются резервные системы для большинства практических приложений. Исследователи работают над усовершенствованием этих систем резервного копирования человека, чтобы смягчить эти проблемы. К ним относятся методы суммирования диалогов и системы обнаружения поломок диалогов, которые предупреждают операторов о потенциальных проблемах, чтобы они могли быстро отреагировать.

Более широкие исследования лаборатории выходят за рамки J-Moshi и включают в себя несколько методов взаимодействия человека и робота. В сотрудничестве с коллегами, работающими над реалистичными гуманоидными роботами, они разрабатывают роботизированные системы, которые координируют речь, жесты и движения для естественного общения.

Эти роботы, в том числе производства Unitree Robotics, представляют собой последние достижения в области искусственного интеллекта в физической форме, где диалоговые системы должны ориентироваться не только в нюансах разговора, но и в физическом присутствии и пространственном сознании. Команда регулярно демонстрирует свою работу на днях открытых дверей университетских кампусов, где общественность может воочию увидеть, как развиваются диалоговые системы ИИ.

Их статья о J-Moshi была принята к публикации в Interspeech, крупнейшей международной конференции в области речевых технологий и исследований. Профессор Хигасинака и его команда с нетерпением ждут возможности представить свое исследование J-Moshi в Роттердаме, Нидерланды, в августе 2025 года.

«В ближайшем будущем мы станем свидетелями появления систем, способных беспрепятственно взаимодействовать с человеком с помощью естественной речи и жестов. Я стремлюсь создать основополагающие технологии, которые будут иметь важное значение для такого преобразующего общества», — сказал профессор Хигасинака.