76 подписчиков

Massively Multilingual Speech (ММS) — модели для распознавания и генерирования речи, поддерживающие более 1100 языков.

Это стало возможным благодаря использованию метода самообучения wav2vec 2.0 и нового датасета, представляющего собой подписанные данные с 1100 языков, плюс неразмеченные данные с почти 4000 языков. Некоторые из них, такие как язык татуё, имеют всего несколько сотен носителей, и для большинства случаев ранее не существовало технологии распознавания речи.

Для сбора датасета использовались религиозные тексты, в частности Библия, которая переведена на множество языков. Чтение Нового Завета на 1100+ языках дало 32 часа данных.

Проект MMS показал, что его модели превосходят существующие и покрывают в 10 раз больше языков, плюс делают в половину меньше ошибок, чем OpenAI Whisper.

P.S. Вы сколько языков знаете? Я русский, английский, и кошачий.

https://ai.facebook.com/blog/multilingual-model-speech-recognition/

Massively Multilingual Speech (ММS) — модели для распознавания и генерирования речи, поддерживающие более 1100 языков. Это стало возможным благодаря использованию метода самообучения wav2vec 2.

00:44

Около минуты

23 мая 2023