Группа исследователей из Apple и Тель-Авивского университета разработала метод ускорения синтеза речи на основе искусственного интеллекта без ущерба для разборчивости. В новой научной работе специалисты описывают оригинальный подход к генерации речи из текста. Несмотря на разнообразие существующих методов преобразования текста в речь, исследователи сосредоточились на авторегрессионных моделях, которые генерируют речевые токены последовательно, один за другим. Если вы знакомы с принципами работы больших языковых моделей, то наверняка слышали об авторегрессионных системах – они предсказывают следующий токен на основе всех предыдущих. Авторегрессионная генерация речи работает по схожему принципу, но токены представляют собой аудиофрагменты, а не слова или символы. При всей эффективности этого способа он создаёт вычислительное узкое место, как объясняют исследователи. Иными словами, авторегрессионные речевые модели могут быть чрезмерно придирчивыми: они часто отклоняют прогнозы, которые бы