76 подписчиков
Massively Multilingual Speech (ММS) — модели для распознавания и генерирования речи, поддерживающие более 1100 языков.
Это стало возможным благодаря использованию метода самообучения wav2vec 2.0 и нового датасета, представляющего собой подписанные данные с 1100 языков, плюс неразмеченные данные с почти 4000 языков. Некоторые из них, такие как язык татуё, имеют всего несколько сотен носителей, и для большинства случаев ранее не существовало технологии распознавания речи.
Для сбора датасета использовались религиозные тексты, в частности Библия, которая переведена на множество языков. Чтение Нового Завета на 1100+ языках дало 32 часа данных.
Проект MMS показал, что его модели превосходят существующие и покрывают в 10 раз больше языков, плюс делают в половину меньше ошибок, чем OpenAI Whisper.
P.S. Вы сколько языков знаете? Я русский, английский, и кошачий.
Около минуты
23 мая 2023