Meta* представила свою языковую модель, которая может понимать устную речь более чем на 4 000 различных языков и говорить на 1 107 из них. Выпуск этой модели направлен на «поддержку и сохранение языкового разнообразия во всем мире». Как правило, модели распознавания речи требуют длительного обучения с использованием тысяч часов аудиозаписей. Однако такие большие наборы данных обычно ограничиваются популярными языками, на которых говорит большое количество людей, оставляя без внимания значительную часть языкового разнообразия мира. Чтобы устранить это ограничение, группа инженеров компании Meta* разработала модель распознавания многоязычной речи (Massively Multilingual Speech, MMS). Модель MMS была обучена на двух наборах данных - один с аудиозаписями и соответствующими текстами из Нового Завета, а другой - с аудиозаписями из различных религиозных источников. Модель MMS использует архитектуру wav2vec 2.0, которая преобразует аудиозаписи в векторные представления. Объединив религиозные н