В основном, все алгоритмы и модели преобразования текста в речь ( или TTS ) очень плохо работают с русским языком. По итогам моих поисков, лучше всего с этим справился Silero TTS, кроме того, для его работы не нужен GPU, скорость и без того достаточно шустрая на процессоре.
Ознакомиться с проектом можно на его странице GitHub, там же можно найти ссылки на Google Collab, если кто то хочет попробовать онлайн.
Я же решил сделать простенький WebUI на базе проекта silero_tts_standalone, способный переваривать большие txt файлы (в оригинале есть ограничение на 1000 символов), и сделал автоматическую процедуру установки и запуска. Также, как обычно, сделал и портативную версию.
Инструкцию по обычной установке можно найти тут.
Для запуска портативной версии вам надо скачать архив, распаковать его и запустить вложенный bat файл. После чего открыть в браузере адрес http://127.0.0.1:7860 (порт может быть другим, в консоли будет показан актуальный).
Сама же работа с программой очень простая: