Сегодня почти каждый журналист, исследователь или подкастер сталкивается с задачей: быстро перевести часы аудиозаписей в текст. Большинство выбирает облачные сервисы, но они стоят денег и требуют доверия к сторонним компаниям. А что если весь процесс можно сделать локально — быстро, бесплатно и без риска утечки данных? Недавно Павлин Гунов опубликовал руководство, в котором шаг за шагом показывает, как построить собственную систему распознавания речи на Python с использованием модели Whisper от OpenAI. 💡 Whisper доступна в пяти вариантах — от лёгкой tiny (89% точности) до огромной large (98% точности, требует ~10 ГБ ОЗУ). Для большинства задач подходит base — баланс скорости и точности. Автор сообщает: часы записей были расшифрованы менее чем за 10 минут с точностью 96%. Для сравнения — это уровень дорогих коммерческих сервисов, но без абонентки. Здесь мы видим пример того, как ИИ-модели реально возвращают контроль пользователю. Whisper в облаке — это хорошо, но Whisper локально — это
🎙️ Локальная транскрипция аудио: когда приватность важнее облака
23 сентября 202523 сен 2025
7
2 мин