Технологический гигант Amazon сделал значительный шаг вперед в создании естественной речи благодаря своей новейшей модели преобразования текста в речь (TTS) — BASE TTS. Эта модель, обладающая 980 миллионами параметров и обученная на 100 000 часах речевых данных, демонстрирует «новые способности», которые, по мнению исследователей, могут вывести технологию за пределы «зловещей долины». Что такое эмерджентные способности? Представьте себе ребенка, изучающего новый язык. Сначала они понимают основные слова и грамматику. Но по мере развития они начинают интуитивно понимать сложные структуры предложений, выражать эмоции с помощью интонации и даже использовать юмор — способности, которым их явно не учили. Именно это исследователи наблюдали в BASE TTS. Хотя модель не была разумной, она продемонстрировала внезапный скачок в своей способности справляться со сложными ситуациями, такими как: Этот «скачок» особенно интересен, потому что он не был запланирован.
100 000 часов речи, 980 млн параметров: ИИ-модель преобразования текста в речь
16 февраля 202416 фев 2024
7
1 мин