10 подписчиков
В ответ на пост
Как работает расшифровка голосовых под капотом Telegram и других соцсетей
VK еще в 2020 году запустили бесплатную расшифровку всех голосовых в соцсети. Я тогда записал интервью о нейросетях с директором по машинному обучению VK (теперь он в Tinkoff уже) Пашей Калайдиным. Почитать можно в ⚡️ AMP (а то TJ заблочен и без VPN не откроется).
Паша тогда очень подробно рассказал, как всё работает под капотом во «ВКонтакте» (и, вероятно, в других соцсетях тоже). Пара хайлайтов из интервью про функцию, которая только появилась в Telegram, на примере VK:
>Сообщения прогоняются через нейросети на специальных серверах с графическими картами. Всего используется три алгоритма: первый — акустическая модель, которая работает со звуком, второй — языковая (это как у людей, когда ты слышишь отдельные слова, но понимаешь суть из контекста), третий — пунктуация.
>Глобально никакое чужое решение никогда не применялось. На наших нагрузках это было бы невозможно: оно стоило бы бесконечных денег, если бы это было платное API. А так как мы большие, мы хотим контролировать процесс и иметь возможность что-то оптимизировать, чтобы тратить меньше ресурсов.
>Cделать так, чтобы это работало на 100 миллионов пользователей — это 50% работы и полгода где-то.
>Из-за наших объёмов нам нужно делать всё максимально эффективно, поэтому мы прогоняем не каждое сообщение, а целые пачки голосовых, чтобы справляться с потоком и не тратить лишние ресурсы.
1 минута
24 июня 2022