9992 ΠΏΠΎΠ΄ΠΏΠΈΡΡΠΈΠΊΠ°
π£ HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation by Hierarchical Variational Inference for Zero-shot Speech Synthesis
Π‘ΠΈΠ½ΡΠ΅Π· ΡΠ΅ΡΠΈ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Π±ΠΎΠ»ΡΡΠΈΡ
ΡΠ·ΡΠΊΠΎΠ²ΡΡ
ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ ΠΏΠΎΠ»ΡΡΠΈΠ» ΡΠΈΡΠΎΠΊΠΎΠ΅ ΡΠ°ΡΠΏΡΠΎΡΡΡΠ°Π½Π΅Π½ΠΈΠ΅.
ΠΠ΄Π½Π°ΠΊΠΎ ΡΠ°ΠΊΠΈΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΡΠ΅Π±ΡΡΡ Π±ΠΎΠ»ΡΡΠΎΠ³ΠΎ ΠΎΠ±ΡΠ΅ΠΌΠ° Π΄Π°Π½Π½ΡΡ
ΠΈ ΠΎΠ±Π»Π°Π΄Π°ΡΡ ΡΠ΅ΠΌΠΈ ΠΆΠ΅ Π½Π΅Π΄ΠΎΡΡΠ°ΡΠΊΠ°ΠΌΠΈ, ΡΡΠΎ ΠΈ ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠΈΠ΅ Π°Π²ΡΠΎΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΎΠ½Π½ΡΠ΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΡΠ΅ΡΠΈ, Π²ΠΊΠ»ΡΡΠ°Ρ Π½ΠΈΠ·ΠΊΡΡ ΡΠΊΠΎΡΠΎΡΡΡ Π²ΡΠ²ΠΎΠ΄Π° ΠΈ ΠΏΠ»ΠΎΡ
ΠΎΠ΅ ΠΊΠ°ΡΠ΅ΡΡΠ²ΠΎ ΡΠ΅ΡΠΈ.
Π Π΄Π°Π½Π½ΠΎΠΉ ΡΠ°Π±ΠΎΡΠ΅ ΠΏΡΠ΅Π»ΡΡΠ°Π²Π»Π΅Π½ HierSpeech++, Π±ΡΡΡΡΡΠΉ ΠΈ Π½Π°Π΄Π΅ΠΆΠ½ΡΠΉ ΡΠΈΠ½ΡΠ΅Π·Π°ΡΠΎΡ ΡΠ΅ΡΠΈ Π΄Π»Ρ ΠΏΡΠ΅ΠΎΠ±ΡΠ°Π·ΠΎΠ²Π°Π½ΠΈΡ ΡΠ΅ΠΊΡΡΠ° Π² ΡΠ΅ΡΡ (TTS) ΠΈ Π³ΠΎΠ»ΠΎΡΠ° (VC).
ΠΠ°Π½Π½Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ ΡΠΈΠ½ΡΠ΅Π·Π° ΡΠ΅ΡΠΈ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΡΡ Π·Π½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΠΏΠΎΠ²ΡΡΠΈΡΡ Π½Π°Π΄Π΅ΠΆΠ½ΠΎΡΡΡ ΠΈ Π²ΡΡΠ°Π·ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΡ ΡΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΡΠ΅ΡΠΈ.
ΠΡΠΎΠΌΠ΅ ΡΠΎΠ³ΠΎ, Π·Π½Π°ΡΠΈΡΠ΅Π»ΡΠ½ΠΎ ΡΠ»ΡΡΡΠ΅Π½ΠΎ Π΅ΡΡΠ΅ΡΡΠ²Π΅Π½Π½ΠΎΡΡΡ ΠΈ ΡΡ
ΠΎΠ΄ΡΡΠ²ΠΎ Ρ Π΄ΠΈΠΊΡΠΎΡΠΎΠΌ ΡΠΈΠ½ΡΠ΅ΡΠΈΡΠ΅ΡΠΊΠΎΠΉ ΡΠ΅ΡΠΈ Π΄Π°ΠΆΠ΅ Π² ΡΡΠ΅Π½Π°ΡΠΈΡΡ
ΡΠΈΠ½ΡΠ΅Π·Π° ΡΠ΅ΡΠΈ Ρ Π½ΡΠ»Π΅Π²ΡΠΌ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠΎΠΌ.
π₯ Code: https://github.com/sh-lee-prml/hierspeechpp
π¦Ύ Checkpoint: https://drive.google.com/drive/folders/1-L_90BlCkbPyKWWHTUjt5Fsu3kz0du0w?usp=sharing
β‘οΈ Demo: https://sh-lee-prml.github.io/HierSpeechpp-demo/
π Paper: https://arxiv.org/abs/2311.12454v1
π Dataset: https://paperswithcode.com/dataset/libri-light
ΠΠΊΠΎΠ»ΠΎ ΠΌΠΈΠ½ΡΡΡ
24Β Π½ΠΎΡΠ±ΡΡΒ 2023