1,19 млн подписчиков

ВКонтакте откроет сторонним разработчикам доступ к своим технологиям распознавания речи

2 минуты

5 прочтений

6 октября 20226 окт 2022

ВКонтакте презентовала очередную новинку. Теперь разработчики смогут бесплатно использовать в своих проектах технологию ВКонтакте. Она считывает голос, а еще переводит его в текст.

Данная технология распознавания речи внедряется в несколько кликов. Ее можно попробовать через веб-интерфейс на специальной странице или интегрировать через публичный API ВКонтакте, говорится на сайте компании.

Как отмечал технический директор ВКонтакте Александр Тоболь на открытии конференции Saint HighLoad++, нейросети технологии ASR, Automatic Speech Recognition хорошо справляются с аудио с посторонними шумами, а также большим количеством сленга и сокращений.

Для распознавания можно выбрать две модели: нейтральную и спонтанную. Первая подойдет для разборчивой речи, как в телешоу или интервью. Спонтанная же поможет в случае необходимости обработать более обыденную речь со сленгом. Нейросети обрабатывают файлы за несколько секунд. Также они способны удалять из расшифровки шумы и паузы. Кроме того, они понимают неразборчивую речь и отдельный звук "ъ".

Эту технологию можно попробовать через веб-интерфейс на специальной странице, либо интегрировать через публичный API ВКонтакте. На портале есть и широкий набор методов, с помощью которых можно создавать мини-приложения ВКонтакте или использовать в сторонних проектах.

Это решение подойдет для инди-проектов, стартапов, личных pet-проектов для обучения и саморазвития. А версию с обработкой аудио до 100 минут в сутки можно применять для любых целей. Кроме того, для безлимитного использования технологии можно отправить заявку на электронную почту.

По словам Александра Тоболя, ВКонтакте делится широким набором собственных уникальных технологий. "Наше ASR-решение — одно из лучших в отрасли по распознаванию обыденной, повседневной речи, в которой нередко встречается сленг, заимствования, сокращения", - указал он.

Тоболь добавил, что ежемесячно пользователи соцсети отправляют более 2 миллиардов голосовых сообщений. Это миллионы часов аудио, которые обрабатывают нейросети.

ASR используется ВКонтакте для расшифровки голосовых сообщений, а также генерации субтитров в видео, персональных рекомендаций и многого другого. Задействовано сразу три нейросети. Одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания. Каждое сообщение расшифровывается примерно за 1,5 секунды после отправки.

При этом применение технологии ограничено только фантазией пользователя. По его словам, можно сделать игру с голосовым управлением или с помощью чат-бота, а еще - добавить распознавание голосовых в сторонний мессенджер. "Надеемся, что наш ASR поможет появиться новым необычным стартапам и инди-проектам от молодых перспективных разработчиков", - добавил он.