67 подписчиков

🚀 Запускаем автоматическую расшифровку аудио из видео! 🚀

Привет, друзья! Сегодня я хочу поделиться с вами удивительной возможностью автоматической транскрибации аудиодорожек из видеофайлов. Это открывает множество возможностей для создания контента, обработки медиа и разработки интерактивных приложений, включая телеграм-ботов!

### Как это работает?

Мы используем Python и несколько мощных библиотек для расшифровки речи из видео. Скрипт автоматически извлекает аудио из видео, разбивает его на части, транскрибирует каждую часть и сохраняет результат в текстовом файле.

### Что вам понадобится?

1. Python: Убедитесь, что у вас установлен Python версии 3.7 или выше.

2. Библиотеки Python: Нам понадобятся whisperx, pydub, numpy, и другие. Установите их, используя pip:

pip install whisperx pydub numpy

3. FFmpeg: Для работы с аудио и видео. Установите его с официального [сайта FFmpeg](https://ffmpeg.org/download.html) или через менеджер пакетов вашей ОС.

### Подготовка и запуск скрипта

1. Скопируйте скрипт ниже в файл transcribe.py на вашем компьютере.

2. Поместите ваш видеофайл в ту же папку, где находится скрипт.

3. Запустите скрипт, указав путь к вашему видео:

python transcribe.py "path_to_your_video.mp4"

### Сам скрипт:

from pydub import AudioSegment

import whisperx

import tempfile

import shutil

import os

import numpy as np

def transcribe_video(input_video, fragment_duration_ms=60000, target_sample_rate=16000):

batch_size = 8

compute_type = "float32"

device = "cpu"

model = whisperx.load_model("small", device=device, compute_type=compute_type)

temp_dir = tempfile.mkdtemp()

try:

audio = AudioSegment.from_file(input_video, format="mp4")

if audio.frame_rate != target_sample_rate:

audio = audio.set_frame_rate(target_sample_rate)

samples = np.array(audio.get_array_of_samples())

fragment_length = len(samples)

num_fragments = max(1, fragment_length // (fragment_duration_ms * (target_sample_rate / 1000)))

full_text_content = []

for i in range(int(num_fragments)):

start = int(i * fragment_duration_ms * (target_sample_rate / 1000))

end = int(min((i + 1) * fragment_duration_ms * (target_sample_rate / 1000), fragment_length))

fragment_samples = samples[start:end]

fragment = AudioSegment(

fragment_samples.tobytes(),

frame_rate=target_sample_rate,

sample_width=audio.sample_width,

channels=audio.channels

)

fragment_file = os.path.join(temp_dir, f"fragment_{i}.wav")

fragment.export(fragment_file, format="wav")

fragment_audio = whisperx.load_audio(fragment_file)

result = model.transcribe(fragment_audio, batch_size=batch_size, language="ru")

model_a, metadata = whisperx.load_align_model(language_code=result["language"], device=device)

result = whisperx.align(result["segments"], model_a, metadata, fragment_audio, device, return_char_alignments=False)

segments = result["segments"]

text_content = ""

for segment in segments:

text = segment['text']

text_content += text[1:] if text[0] == ' ' else text

text_content += "\n"

full_text_content.append(text_content)

with open("transcription.txt", "w", encoding="utf-8") as file:

file.write("\n".join(full_text_content))

finally:

shutil.rmtree(temp_dir)

if __name__ == "__main__":

import sys

transcribe_video(sys.argv[1])

### Системные требования

- Операционная система: Windows, macOS, Linux.

- Память: Рекомендуется минимум 4 ГБ RAM для комфортной работы.

- Процессор: Любой современный CPU от Intel, AMD или ARM с поддержкой Python.

### Впереди больше!

Эти и другие технологии мы будем использовать на моём летнем курсе по созданию коммерческих телеграм-ботов! 🤖✨

2 минуты

10 июля 2024