Большинство сервисов для распознавания речи устроены просто: вы отправляете аудио, где-то на сервере нейросеть превращает его в текст, и спустя пару секунд получаете результат.
Звучит удобно — пока не задумаешься, что все записи уходят «в облако». Если вы не хотите передавать интервью, личные разговоры или заметки третьим лицам — есть выход.
Теперь распознавание можно делать прямо на своём компьютере, без интернета. Мы создали версию Whisper, которая работает целиком в браузере.
Она использует оригинальные модели OpenAI Whisper, но без единого обращения к серверу. Все вычисления происходят на вашем устройстве — браузер загружает модель один раз, сохраняет её в кэше, и дальше вы можете пользоваться ей даже офлайн.
Фактически, ваш браузер становится мини-нейросетью, которая расшифровывает речь в текст. Технология работает на WebGPU — браузер использует вашу видеокарту, чтобы ускорить процесс.
Если GPU нет, всё равно запустится через WASM, просто чуть медленнее. Браузерная версия не