В мире text-to-speech давно сложился негласный консенсус: хочешь качественный голос — готовь GPU, сотни миллионов параметров и облачную инфраструктуру. Проект Sopro аккуратно, но уверенно ломает это представление. Небольшая модель, zero-shot клонирование голоса, работа в реальном времени и… обычный CPU. Без магии, но с грамотной инженерией. На первый взгляд новость выглядит как ещё один open-source TTS-проект. Но если копнуть глубже, становится ясно: Sopro — это не про «догнать SOTA», а про переосмысление архитектуры и сценариев использования. Почти все современные TTS-модели последних лет — это вариации на тему Transformer. Они мощные, универсальные, но тяжёлые и прожорливые. Автор Sopro пошёл другим путём:
он собрал модель на разреженной свёртке (dilated convolution в духе WaveNet) и лёгком cross-attention. Это даёт сразу несколько эффектов: Именно поэтому модель с 169 млн параметров способна выдавать RTF 0.25 на CPU, что по меркам TTS выглядит почти вызывающе. Клонирование голоса за