118 подписчиков

Как перевести видео-урок в текст с помощью интернета и питона

28 мая 202528 мая 2025

2 мин

Сразу скажу, что есть много инструментов для перевода больших файлов в текст, но они обычно платные. Я поискала с помощью гугл-поиска и с помощью разных чатов типа ЖПТ, но я пока не знаю, как бесплатно осуществить транскрибацию, чтобы ее можно было прочесть и составить конспект, например. Есть сервисы, которые ограничены временем, я попробовала разные, а есть сервисы, куда можно закинуть ссылку на ютубницу (допустим) и получить текст, но они ограничены количеством запросов в месяц (если бесплатно). Буквица в телеграме хорошо работает, но там лимит на 3 запроса в месяц. Представим, что у вас есть скачанное видео урока длиной более часа, а вы, допустим, не слышите, и вам нужен текст. Я взяла видео длиной в 1,5 часа, что обычно является длинным. Первое, что нужно сделать, - это конвертировать видео в аудио. Воспользуемся извлекателем аудио из видео онлайн. В моем случае вышло аудио размером 111 MB. Это многовато. 1- https://audio-extractor.net/ Второе - уменьшить размер аудио. Выбирае

Представим, что у вас есть скачанное видео урока длиной более часа, а вы, допустим, не слышите, и вам нужен текст. Я взяла видео длиной в 1,5 часа, что обычно является длинным.

Первое, что нужно сделать, - это конвертировать видео в аудио. Воспользуемся извлекателем аудио из видео онлайн. В моем случае вышло аудио размером 111 MB. Это многовато.

1- https://audio-extractor.net/

Второе - уменьшить размер аудио. Выбираем экономный вариант. Получаем 55,54 MB.

2. online-audio-converter.com›ru/

Хорошо бы разрезать теперь это аудио на куски, потому что длинное аудио неудобно и встречает ограничения.

Используем этот код (нарезает на кусочки до 8MB):

<https://gist.github.com/ElenaInDespair/2294b76d4632b92b40549142427d8036>

Не забываем про 'pip install pydub' в этом случае.

К сожалению, когда я тестировала разные варианты кода с распознаванием кусков аудио и транскрибацией на ПК, то хорошего текста не получалось. Будь то доступ через Google Web Speech API или скачанная на компьютер модель vosk-model с русскоязычными данными (если у кого- то получится, то напишите). В моем случае выходил текстовый документ, где были распознаны только начальные моменты из нарезанных кусков. При изменении размера аудио до более короткого ничего не изменилось, плохо распознавалась даже песня, где качество аудио было хорошим изначально.

Поэтому я решила воспользоваться SaluteSpeechBot от сбера в телеграме, который принимает кусочки до 8MB. У них наверняка много инструментов для качественной обработки аудио, что хорошо. Конечно, на сайте есть платные услуги, но так как я не фирма, то мне нужен какой-то бесплатный ограниченный вариант. Таким образом возникло разрезание аудио на отрывки определенного размера.

Мой урок превратился в 72 фрагмента. После этого закидываем их в телегу по 4 штуки. Все сразу прикрепить не получится, стоит ограничение. Прикреплю ссылку: https://t.me/smartspeech_sber_bot

Получается что-то такое (отсюда уже можно скопировать или так читать):

Надеюсь, кому-то было полезно. Если вы знаете методы получше, то будет здорово, если поделитесь)))

Образование

190,2 тыс интересуются