Добавить в корзинуПозвонить
Найти в Дзене
ИА Регнум

VK усовершенствовала функцию преобразования речи в текст в продуктах группы

Компания AI VK усовершенствовала технологию автоматического распознавания речи (ASR) на основе моделей машинного обучения. Об этом 8 декабря сообщили в пресс-службе VK. Благодаря улучшению функции на платформах группы речь распознается на 20% точнее по сравнению с предыдущей версией. Усовершенствование помогло повысить качество субтитров, расшифровок голосовых сообщений и «кружочков». Технология превращает голос в текст таким образом: она переводит звук в цифровой формат и очищает запись от шума. После анализируются особенности звучания для распознавания слов. LLM и нейросетевые модели помогают системе улавливать контекст и находить в речи устойчивые выражения. Так расшифровка получается естественной и точной. Новую версию технологии по распознаванию речи дообучили на расширенном датасете аудиодорожек из открытых видеороликов «VK Видео». Внутренние тесты показали, что модель справляется с русским языком лучше зарубежных аналогов. ASR-технологии VK используются в создании субтитров в «V

Компания AI VK усовершенствовала технологию автоматического распознавания речи (ASR) на основе моделей машинного обучения. Об этом 8 декабря сообщили в пресс-службе VK.

    / Источник: © ИЗВЕСТИЯ/Сергей Лантюхов
/ Источник: © ИЗВЕСТИЯ/Сергей Лантюхов

Благодаря улучшению функции на платформах группы речь распознается на 20% точнее по сравнению с предыдущей версией. Усовершенствование помогло повысить качество субтитров, расшифровок голосовых сообщений и «кружочков».

Технология превращает голос в текст таким образом: она переводит звук в цифровой формат и очищает запись от шума. После анализируются особенности звучания для распознавания слов. LLM и нейросетевые модели помогают системе улавливать контекст и находить в речи устойчивые выражения. Так расшифровка получается естественной и точной.

Новую версию технологии по распознаванию речи дообучили на расширенном датасете аудиодорожек из открытых видеороликов «VK Видео». Внутренние тесты показали, что модель справляется с русским языком лучше зарубежных аналогов.

ASR-технологии VK используются в создании субтитров в «VK Видео», «VK Клипах», Учи. ру и в голосовых сообщениях мессенджера «ВКонтакте». Обновление уже заработало в «VK Видео» и «VK Клипах».

В дальнейшем инженеры AI VK планируют повысить точность распознавания голосовых сообщений, расширить поддержку языков и добавить диаризацию (разделение по спикерам).

Ранее, 12 ноября, компания VK провела масштабное обновление личного кабинета для создателей контента в сервисе «VK Видео», создав усовершенствованную панель управления с расширенными возможностями для работы с публикациями и изучения зрительской аудитории.

Еще больше информации в канале «Регнум» в мессенджере МАХ.

Пение
3339 интересуются