Найти тему
76 подписчиков

Massively Multilingual Speech (ММS) — модели для распознавания и генерирования речи, поддерживающие более 1100 языков.


Это стало возможным благодаря использованию метода самообучения wav2vec 2.0 и нового датасета, представляющего собой подписанные данные с 1100 языков, плюс неразмеченные данные с почти 4000 языков. Некоторые из них, такие как язык татуё, имеют всего несколько сотен носителей, и для большинства случаев ранее не существовало технологии распознавания речи​.

Для сбора датасета использовались религиозные тексты, в частности Библия, которая переведена на множество языков. Чтение Нового Завета на 1100+ языках дало 32 часа данных​.

Проект MMS показал, что его модели превосходят существующие и покрывают в 10 раз больше языков, плюс делают в половину меньше ошибок, чем OpenAI Whisper​.

P.S. Вы сколько языков знаете? Я русский, английский, и кошачий.

Massively Multilingual Speech (ММS) — модели для распознавания и генерирования речи, поддерживающие более 1100 языков.  Это стало возможным благодаря использованию метода самообучения wav2vec 2.
00:44
Около минуты