Найти в Дзене
Новости технологий

Крупнейшая модель искусственного интеллекта для преобразования текста в речь демонстрирует «новые возможности»

Исследователи из Amazon обучили самую большую в истории модель преобразования текста в речь, которая, по их утверждению, демонстрирует «новые» качества, улучшающие ее способность естественным образом произносить даже сложные предложения. Прорыв может стать тем, что нужно технологии.

Эти модели всегда будут расти и совершенствоваться, но исследователи особенно надеялись увидеть тот скачок в возможностях, который мы наблюдали, когда языковые модели превысят определенный размер. По неизвестным нам причинам, как только LLM достигают определенного уровня, они становятся более надежными и универсальными, способными выполнять задачи, которым они не были обучены.

Это не значит, что они обретают разум или что-то в этом роде, просто после определенного момента их эффективность в определенных диалоговых задачах искусственного интеллекта происходит переломный момент. Команда Amazon AGI (не секрет, к чему они стремятся) полагала, что то же самое может произойти с развитием моделей преобразования текста в речь, и их исследования показывают, что это действительно так.

Новая модель называется Big Adaptive Streamable TTS с Emergent способностями которую они исказили в аббревиатуру BASE TTS. Самая большая версия модели использует 100 000 часов общедоступной речи, 90% из которых приходится на английский, а остальные — на немецкий, голландский и испанский языки.

Модель BASE-large с 980 миллионами параметров является самой крупной моделью в этой категории. Для сравнения они также обучили модели с 400 млн и 150 млн параметров на основе 10 000 и 1 000 часов аудио соответственно — идея заключается в том, что если одна из этих моделей демонстрирует развивающееся поведение, а другая — нет, у вас есть диапазон того, где такое поведение начинается. появиться.

Как оказалось, модель среднего размера продемонстрировала скачок в возможностях, который искала команда, не обязательно в обычном качестве речи (оно оценивается лучше, но всего на пару баллов), но в наборе возникающих способностей, которые они наблюдали и измеряли. Вот примеры сложного текста, упомянутого в статье :

  • Сложные существительные : The Beckhams decided to rent a charming stone-built quaint countryside holiday cottage.
  • Эмоции : “Oh my gosh! Are we really going to the Maldives? That’s unbelievable!” Jennie squealed, bouncing on her toes with uncontained glee.
  • Иностранные слова : “Mr. Henry, renowned for his mise en place, orchestrated a seven-course meal, each dish a pièce de résistance.
  • Паралингвистика (то есть читаемые не-слова): “Shh, Lucy, shhh, we mustn’t wake your baby brother,” Tom whispered, as they tiptoed past the nursery.
  • Пунктуация : She received an odd text from her brother: ’Emergency @ home; call ASAP! Mom & Dad are worried…#familymatters.’
  • Вопросы : But the Brexit question remains: After all the trials and tribulations, will the ministers find the answers in time?
  • Синтаксические сложности : The movie that De Moya who was recently awarded the lifetime achievement award starred in 2022 was a box-office hit, despite the mixed reviews.

«Эти предложения предназначены для решения сложных задач — разбор предложений, посвященных садовой дорожке, размещение фразового ударения на многословных сложных существительных, создание эмоциональной или шепчущей речи или создание правильных фонем для иностранных слов, таких как «qi», или знаков препинания, таких как «@». – ни одно из этих действий BASE TTS не обучено явно», – пишут авторы.

Такие функции обычно сбивают с толку системы преобразования текста в речь, которые неправильно произносят, пропускают слова, используют странную интонацию или совершают какие-либо другие ошибки. У BASE TTS все еще были проблемы, но дела у нее шли гораздо лучше, чем у ее современников — таких моделей, как Tortoise и VALL-E.

На сайте, который они для нее создали, есть множество примеров того, как эти сложные тексты совершенно естественно произносятся новой моделью . Конечно, они были выбраны исследователями, поэтому они обязательно тщательно отобраны, но, тем не менее, это впечатляет.

Поскольку три модели BASE TTS имеют общую архитектуру, кажется очевидным, что размер модели и объем ее обучающих данных, по-видимому, являются причиной способности модели справляться с некоторыми из вышеперечисленных сложностей. Имейте в виду, что это все еще экспериментальная модель и процесс, а не коммерческая модель или что-то в этом роде. Дальнейшие исследования должны будут определить переломный момент возникновения новых способностей и способы эффективного обучения и применения полученной модели.

Примечательно, что эта модель является «потоковой», как следует из названия — это означает, что ей не нужно генерировать целые предложения сразу, а она работает шаг за шагом с относительно низким битрейтом. Команда также попыталась упаковать речевые метаданные, такие как эмоциональность, просодия и т. д., в отдельный поток с низкой пропускной способностью, который мог бы сопровождать стандартный звук.

Похоже, что модели преобразования текста в речь могут стать прорывными в 2024 году. Но нельзя отрицать полезность этой технологии, в частности, с точки зрения доступности. Команда отмечает, что отказалась публиковать источник модели и другие данные из-за риска, что ею воспользуются злоумышленники. Однако в конце концов кот выберется из этого мешка.