Команда AI VK обновила технологию автоматического распознавания речи (ASR), повысив ее точность на 20% по сравнению с предыдущей версией. Улучшения затрагивают качество субтитров, расшифровок голосовых сообщений и «кружочков» в продуктах VK. ASR-технология переводит голос в текст, очищая звук от шумов и анализируя особенности речи. VK использует сочетание ML-моделей, LLM и нейросетей: они помогают системе лучше понимать контекст, устойчивые выражения и смысловые связи, благодаря чему текст получается более естественным. Обновленная версия была дообучена на расширенном датасете аудиодорожек из публичных роликов VK Видео, что позволило модели точнее интерпретировать разные темпы и манеру речи. По итогам внутренних тестов, ASR VK превосходит зарубежные аналоги по качеству распознавания (WER) русскоязычных аудио. Технология используется в: Обновленная ASR уже внедрена в VK Видео и VK Клипы и будет постепенно интегрироваться в другие продукты группы. В планах AI VK – дальнейшее повышение то
VK улучшила технологии распознавания речи: точность выросла на 20%
8 декабря 20258 дек 2025
2
1 мин