16 подписчиков

Исследователи Amazon обучают самую крупную на сегодняшний день модель ИИ для преобразования текста в речь

16 февраля 202416 фев 2024

2 мин

По мнению TechCrunch, эта находка может представлять собой технологический прогресс, возможно, преодолевающий "долину сверхъестественного". Базовый TTS Amazon AGI

Команда Amazon AGI ожидала, что сопоставимые улучшения могут быть достигнуты с моделями преобразования текста в речь, и полученные результаты подтверждают эту мысль. Новый подход, известный как Big Adaptive Streamable TTS with Emergent abilities (BASE TTS), основан на обширном наборе данных из 100 000 часов публичной речи, в основном на англи

Оглавление

Базовый TTS Amazon AGI
'Потоковый'

Исследователи Amazon представили самую большую на сегодняшний день модель ИИ для преобразования текста в речь, которая, по их словам, обладает "эмерджентными" свойствами, улучшающими ее способность естественно произносить даже сложные слова.
По мнению TechCrunch, эта находка может представлять собой технологический прогресс, возможно, преодолевающий "долину сверхъестественного".

Базовый TTS Amazon AGI

Хотя развитие и совершенствование этих моделей было ожидаемо, исследователи надеялись, что после преодоления определенного барьера в размерах они смогут добиться значительного скачка в производительности, сравнимого с достижениями языковых моделей.
Команда Amazon AGI ожидала, что сопоставимые улучшения могут быть достигнуты с моделями преобразования текста в речь, и полученные результаты подтверждают эту мысль.

Новый подход, известный как Big Adaptive Streamable TTS with Emergent abilities (BASE TTS), основан на обширном наборе данных из 100 000 часов публичной речи, в основном на английском, а также на немецком, голландском и испанском языках.
По данным TechCrunch, модель BASE TTS с 980 миллионами параметров является самой большой в своей категории, превосходя предыдущие поколения по масштабу и мощности.

Исследователи протестировали несколько размеров модели, включая версии с 400 М и 150 М параметрами, чтобы определить развитие желаемых характеристик. Удивительно, но модель среднего размера продемонстрировала ожидаемый прирост производительности, в частности, способность справляться со сложными речевыми задачами, для которых не было специального обучения.
По словам исследователей, несмотря на ограничения, присущие системам преобразования текста в речь, такие как ошибки в произношении или интонации, модель BASE TTS продемонстрировала выдающиеся способности в работе со сложными языковыми формулировками.

Способность модели разбирать сложные слова, выделять составные существительные, воспроизводить страстную или тихую речь демонстрирует ее потенциальные возможности.
Более того, модели BASE TTS имеют общий дизайн, что указывает на то, что их размер и обучающие данные оказывают большое влияние на их способность справляться с языковой сложностью. Однако важно помнить, что эти модели все еще являются экспериментальными и требуют значительной доработки перед широким использованием.

'Потоковый'

По данным TechCrunch, одной из важных характеристик модели BASE TTS является ее "потоковая" природа, которая позволяет синтезировать речь в реальном времени с низким битрейтом.

Кроме того, были предприняты усилия по инкапсуляции метаданных речи, таких как эмоциональность и просодия, в отдельный поток с низкой пропускной способностью, что повышает его универсальность и адаптивность.
Хотя внедрение мощных моделей преобразования текста в речь имеет огромный потенциал, особенно для обеспечения доступности, эксперты предостерегают от преждевременного раскрытия данных модели из-за проблем безопасности.

Несмотря на нежелание делиться исходным кодом модели и сопутствующими данными, вероятность того, что она будет доступна в будущем, подчеркивает важность надежного контроля над потенциальной эксплуатацией.