3 подписчика

Speech to text

30 ноября 202530 ноя 2025

1 мин

Speech to text Появилась недавно у меня задача - перевести довольно много аудиосообщений в текст. К моему удивлению, ChatGPT, до этого довольно бодро справлявшийся с моими задачами, дал слабину. Причем не справился не только перевести голос в текст, но и нормально обработать результаты, когда я уже транскрибировал без него! Запахло слабостью в OpenAI короче говоря. Гораздо лучше себя повел Gemini, успешно распознав пару аудио-файлов. Однако в UI нельзя загрузить больше 10 файлов аудио за раз, а у меня был 121 файл. Пришлось расчехлять питон и делать небольшой скриптик. Заиспользовал whisper, и в 12 GB моей RTX 4070 даже влезла какая-то large модель, что приятно. Не зря гроб собирал! По результату могу сказать, что сработало все это дело замечательно. Аудиофайлы я экспортировал из своего приватного канала в телеграме, который создал специально для этого дела. Вначале я думал использовать фичу телеграм премиума по распознаванию аудио, однако оказалось, что долгие аудио он не вывозит.

Speech to text

Появилась недавно у меня задача - перевести довольно много аудиосообщений в текст. К моему удивлению, ChatGPT, до этого довольно бодро справлявшийся с моими задачами, дал слабину. Причем не справился не только перевести голос в текст, но и нормально обработать результаты, когда я уже транскрибировал без него! Запахло слабостью в OpenAI короче говоря.

Гораздо лучше себя повел Gemini, успешно распознав пару аудио-файлов. Однако в UI нельзя загрузить больше 10 файлов аудио за раз, а у меня был 121 файл. Пришлось расчехлять питон и делать небольшой скриптик. Заиспользовал whisper, и в 12 GB моей RTX 4070 даже влезла какая-то large модель, что приятно. Не зря гроб собирал!

По результату могу сказать, что сработало все это дело замечательно. Аудиофайлы я экспортировал из своего приватного канала в телеграме, который создал специально для этого дела. Вначале я думал использовать фичу телеграм премиума по распознаванию аудио, однако оказалось, что долгие аудио он не вывозит. Это неявное органичение телеграма - если сообщение дольше 5 минут, шансы его перевести в текст резко падают.

Короче говоря, если хочется делать много и эффективно, без скриптов все еще никуда. Если вдруг захотите переводить бубнеж в текст в промышленных масштабах, рабочая схема такая:

1. Экспорт из телеграм канала

2. Скрипт для транскрипта

3. LLM для финальной шлифовки и сборки.

P.S. GPU для транскрипта необязательна, просто с ней быстрее.