Исследователи Amazon представили самую большую на сегодняшний день модель ИИ для преобразования текста в речь, которая, по их словам, обладает "эмерджентными" свойствами, улучшающими ее способность естественно произносить даже сложные слова.
По мнению TechCrunch, эта находка может представлять собой технологический прогресс, возможно, преодолевающий "долину сверхъестественного". Базовый TTS Amazon AGI
Хотя развитие и совершенствование этих моделей было ожидаемо, исследователи надеялись, что после преодоления определенного барьера в размерах они смогут добиться значительного скачка в производительности, сравнимого с достижениями языковых моделей.
Команда Amazon AGI ожидала, что сопоставимые улучшения могут быть достигнуты с моделями преобразования текста в речь, и полученные результаты подтверждают эту мысль. Новый подход, известный как Big Adaptive Streamable TTS with Emergent abilities (BASE TTS), основан на обширном наборе данных из 100 000 часов публичной речи, в основном на англи