572,1 тыс подписчиков

VK усовершенствовала функцию преобразования речи в текст в продуктах группы

8 декабря 20258 дек 2025

1 мин

Компания AI VK усовершенствовала технологию автоматического распознавания речи (ASR) на основе моделей машинного обучения. Об этом 8 декабря сообщили в пресс-службе VK. Благодаря улучшению функции на платформах группы речь распознается на 20% точнее по сравнению с предыдущей версией. Усовершенствование помогло повысить качество субтитров, расшифровок голосовых сообщений и «кружочков». Технология превращает голос в текст таким образом: она переводит звук в цифровой формат и очищает запись от шума. После анализируются особенности звучания для распознавания слов. LLM и нейросетевые модели помогают системе улавливать контекст и находить в речи устойчивые выражения. Так расшифровка получается естественной и точной. Новую версию технологии по распознаванию речи дообучили на расширенном датасете аудиодорожек из открытых видеороликов «VK Видео». Внутренние тесты показали, что модель справляется с русским языком лучше зарубежных аналогов. ASR-технологии VK используются в создании субтитров в «V

Компания AI VK усовершенствовала технологию автоматического распознавания речи (ASR) на основе моделей машинного обучения. Об этом 8 декабря сообщили в пресс-службе VK.

Благодаря улучшению функции на платформах группы речь распознается на 20% точнее по сравнению с предыдущей версией. Усовершенствование помогло повысить качество субтитров, расшифровок голосовых сообщений и «кружочков».

Технология превращает голос в текст таким образом: она переводит звук в цифровой формат и очищает запись от шума. После анализируются особенности звучания для распознавания слов. LLM и нейросетевые модели помогают системе улавливать контекст и находить в речи устойчивые выражения. Так расшифровка получается естественной и точной.

Новую версию технологии по распознаванию речи дообучили на расширенном датасете аудиодорожек из открытых видеороликов «VK Видео». Внутренние тесты показали, что модель справляется с русским языком лучше зарубежных аналогов.

ASR-технологии VK используются в создании субтитров в «VK Видео», «VK Клипах», Учи. ру и в голосовых сообщениях мессенджера «ВКонтакте». Обновление уже заработало в «VK Видео» и «VK Клипах».

В дальнейшем инженеры AI VK планируют повысить точность распознавания голосовых сообщений, расширить поддержку языков и добавить диаризацию (разделение по спикерам).

Ранее, 12 ноября, компания VK провела масштабное обновление личного кабинета для создателей контента в сервисе «VK Видео», создав усовершенствованную панель управления с расширенными возможностями для работы с публикациями и изучения зрительской аудитории.

Еще больше информации в канале «Регнум» в мессенджере МАХ.

Пение

3339 интересуются