⚡️БОМБА: Alibaba дропнула мини-нейронку для генерации озвучки и клонирования голоса — CosyVoice 3: • У модели всего 0.5B параметров, которую можно запустить даже на калькуляторе локально • При этом она обходит конкурентов, которые в 3 РАЗА больше неё • Поддерживает 9 языков — русский, английский, китайский, японский, корейский, немецкий, испанский, французский и итальянский • Главная фича — Zero-shot. По отрывку в 3-10 секунд полностью клонирует голос, его тембр и манеру речи • Распознаёт эмоции и всякие «звуковые события» — по типу чавканья, хлипов и т.д. • Есть стриминг голоса — модель клонирует голос в реальном времени с задержкой всего 150 мс • Фича Pronunciation Inpainting — она позволяет вручную настраивать произношение отдельных слов • Модель получила лицензию для коммерческого использования • Уже лежит в опенсорсе БЕСПЛАТНО GitHub тут. HuggingFace тут. @enter
⚡️БОМБА: Alibaba дропнула мини-нейронку для генерации озвучки и клонирования голоса — CosyVoice 3
14 января14 янв
3
~1 мин