Найти Ρ‚Π΅ΠΌΡƒ
9993 подписчика

🌟 ASR ΠΈ диаризация Ρ€Π΅Ρ‡ΠΈ ΠΎΡ‚ RevAI.


RevAI, Π»ΠΈΠ΄Π΅Ρ€ Π² области ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎΠΉ транскрипции английской Ρ€Π΅Ρ‡ΠΈ выпустила Π² ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΉ доступ Ρ„Ρ€Π΅ΠΉΠΌdΠΎΡ€ΠΊ Reverb ΠΈ Π½Π°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ для построСния ΠΊΠΎΠ½Π²Π΅ΠΉΠ΅Ρ€Π° speech-to-text.

Reverb Π²ΠΊΠ»ΡŽΡ‡Π°Π΅Ρ‚ Π² сСбя: модСль ASR Π½Π° Π±Π°Π·Π΅ WeNet ΠΈ 2 вСрсии ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄ΠΈΠ°Ρ€ΠΈΠ·Π°Ρ†ΠΈΠΈ Ρ€Π΅Ρ‡ΠΈ. Π’Π΅ΡΡŒ ΠΏΠ°ΠΏΠ»Π°ΠΉΠ½ Reverb ΠΌΠΎΠΆΠ½ΠΎ Π·Π°ΠΏΡƒΡΠΊΠ°Ρ‚ΡŒ ΠΊΠ°ΠΊ Π½Π° CPU, Ρ‚Π°ΠΊ ΠΈ Π½Π° GPU.

Reverb ASR ΠΎΠ±ΡƒΡ‡Π°Π»Π°ΡΡŒ Π½Π° 200 000 часов английской Ρ€Π΅Ρ‡ΠΈ, ΠΏΡ€ΠΎΡ„Π΅ΡΡΠΈΠΎΠ½Π°Π»ΡŒΠ½ΠΎ транскрибированной людьми β€” это самый большой корпус транскрибированной Ρ‡Π΅Π»ΠΎΠ²Π΅ΠΊΠΎΠΌ Ρ€Π΅Ρ‡ΠΈ, ΠΊΠΎΠ³Π΄Π°-Π»ΠΈΠ±ΠΎ использовавшийся для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ с ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚Ρ‹ΠΌ исходным ΠΊΠΎΠ΄ΠΎΠΌ.

Она позволяСт ΠΊΠΎΠ½Ρ‚Ρ€ΠΎΠ»ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡƒΡ€ΠΎΠ²Π΅Π½ΡŒ дословности Π²Ρ‹Ρ…ΠΎΠ΄Π½ΠΎΠ³ΠΎ транскрипта для создания чистого, ΡƒΠ΄ΠΎΠ±ΠΎΡ‡ΠΈΡ‚Π°Π΅ΠΌΠΎΠ³ΠΎ тСкста ΠΈ справляСтся с ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠΎΠΉ Π°ΡƒΠ΄ΠΈΠΎ, Ρ‚Ρ€Π΅Π±ΡƒΡŽΡ‰Π΅Π³ΠΎ транскрипции ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ произнСсСнного слова, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ запинания ΠΈ пСрСфразирования.

Reverb ASR ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ ΡΠΎΠ²ΠΌΠ΅ΡΡ‚Π½ΡƒΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ CTC/attention ΠΈ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Π΅Ρ‚ нСсколько Ρ€Π΅ΠΆΠΈΠΌΠΎΠ² дСкодирования. Π£ΠΊΠ°Π·Π°Ρ‚ΡŒ ΠΎΠ΄ΠΈΠ½ ΠΈΠ»ΠΈ нСсколько Ρ€Π΅ΠΆΠΈΠΌΠΎΠ² ΠΌΠΎΠΆΠ½ΠΎ Π² recognize_wav.py. Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ Ρ€Π΅ΠΆΠΈΠΌΠ° Π±ΡƒΠ΄ΡƒΡ‚ созданы ΠΎΡ‚Π΄Π΅Π»ΡŒΠ½Ρ‹Π΅ Π²Ρ‹Ρ…ΠΎΠ΄Π½Ρ‹Π΅ ΠΊΠ°Ρ‚Π°Π»ΠΎΠ³ΠΈ. Π’Π°Ρ€ΠΈΠ°Π½Ρ‚Ρ‹ дСкодирования:

🟒attention;
🟒ctc_greedy_search;
🟒ctc_prefix_beam_search;
🟒attention_rescoring;
🟒joint_decoding.

Π’ ΠΎΡ†Π΅Π½ΠΊΠ΅ Reverb ASR использовались Ρ‚Ρ€ΠΈ корпуса Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… аудиозаписСй: Rev16 (подкасты), Earnings21 ΠΈ Earnings22 (Ρ‚Π΅Π»Π΅Ρ„ΠΎΠ½Π½Ρ‹Π΅ Ρ€Π°Π·Π³ΠΎΠ²ΠΎΡ€Ρ‹).

Reverb ASR Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ прСвосходит ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚ΠΎΠ² Π² тСстовых Π½Π°Π±ΠΎΡ€Π°Ρ… ASR для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… Ρ„ΠΎΡ€ΠΌ, особСнно Π² Earnings22, Π³Π΄Π΅ Π² основном Ρ€Π΅Ρ‡ΡŒ носитСлСй английского языка Π½Π΅ ΠΊΠ°ΠΊ Ρ€ΠΎΠ΄Π½ΠΎΠ³ΠΎ.

Для Ρ‚Ρ€Π°Π΄ΠΈΡ†ΠΈΠΎΠ½Π½ΠΎΠ³ΠΎ Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΈΠ½Π³Π° использовался GigaSpeech, Reverb ASR запускался Π² дословном Ρ€Π΅ΠΆΠΈΠΌΠ΅ Π½Π° скриптах ΠΎΡ†Π΅Π½ΠΊΠΈ Hugging Face Open ASR Leaderboard. По ΠΈΡ… Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°ΠΌ Reverb ASR Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ прСвосходит ΠΊΠΎΠ½ΠΊΡƒΡ€Π΅Π½Ρ‚ΠΎΠ² Π² тСстовых Π½Π°Π±ΠΎΡ€Π°Ρ… ASR для Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… Ρ„ΠΎΡ€ΠΌ.

Reverb diarization v1 ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Ρƒ pyannote 3.0 ΠΈ ΠΈΠΌΠ΅Π΅Ρ‚ 2 слоя LSTM со скрытым Ρ€Π°Π·ΠΌΠ΅Ρ€ΠΎΠΌ 256, всСго ΠΎΠΊΠΎΠ»ΠΎ 2,2 ΠΌΠ»Π½ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π° Reverb diarization v2 ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ WavLM вмСсто Ρ„ΡƒΠ½ΠΊΡ†ΠΈΠΉ SincNet Π² Π±Π°Π·ΠΎΠ²ΠΎΠΉ ΠΌΠΎΠ΄Π΅Π»ΠΈ pyannote 3.0.

ОбС ΠΌΠΎΠ΄Π΅Π»ΠΈ Π΄ΠΈΠ°Ρ€ΠΈΠ·Π°Ρ†ΠΈΠΈ ΠΏΡ€ΠΎΡˆΠ»ΠΈ донастройку Π½Π° 26 000 часах Π΄Π°Π½Π½Ρ‹Ρ… с экспСртной Ρ€Π°Π·ΠΌΠ΅Ρ‚ΠΊΠΎΠΉ.

β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½ΠΎΠ΅ использованиС прСдусматриваСт нСсколько Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ΠΎΠ²: установка с anaconda, использованиС Docker-ΠΎΠ±Ρ€Π°Π·Π° ΠΈ ΠΌΠ°ΡΡˆΡ‚Π°Π±Π½ΠΎΠ΅ Ρ€Π°Π·Π²Π΅Ρ€Ρ‚Ρ‹Π²Π°Π½ΠΈΠ΅.

⚠️ Для локальной установки понадобится Huggingface API KEY

🟑Demo
πŸ–₯GitHub


#AI #ML #ASR #Diarization #REVAI
1 ΠΌΠΈΠ½ΡƒΡ‚Π°