Найти в Дзене
10 подписчиков

В ответ на пост


Как работает расшифровка голосовых под капотом Telegram и других соцсетей

VK еще в 2020 году запустили бесплатную расшифровку всех голосовых в соцсети. Я тогда записал интервью о нейросетях с директором по машинному обучению VK (теперь он в Tinkoff уже) Пашей Калайдиным. Почитать можно в ⚡️ AMP (а то TJ заблочен и без VPN не откроется).

Паша тогда очень подробно рассказал, как всё работает под капотом во «ВКонтакте» (и, вероятно, в других соцсетях тоже). Пара хайлайтов из интервью про функцию, которая только появилась в Telegram, на примере VK:

>Сообщения прогоняются через нейросети на специальных серверах с графическими картами. Всего используется три алгоритма: первый — акустическая модель, которая работает со звуком, второй — языковая (это как у людей, когда ты слышишь отдельные слова, но понимаешь суть из контекста), третий — пунктуация.

>Глобально никакое чужое решение никогда не применялось. На наших нагрузках это было бы невозможно: оно стоило бы бесконечных денег, если бы это было платное API. А так как мы большие, мы хотим контролировать процесс и иметь возможность что-то оптимизировать, чтобы тратить меньше ресурсов.

>Cделать так, чтобы это работало на 100 миллионов пользователей — это 50% работы и полгода где-то.

>Из-за наших объёмов нам нужно делать всё максимально эффективно, поэтому мы прогоняем не каждое сообщение, а целые пачки голосовых, чтобы справляться с потоком и не тратить лишние ресурсы.

1 минута