151 подписчик

Удобный инструмент для распознавания речи и вставки текста с помощью Python и AutoHotkey

9 июня 20249 июн 2024

3 мин

Введение В мире, где цифровые технологии играют важную роль, инструменты для автоматизации задач становятся всё более популярными. Один из таких инструментов — это комбинация AutoHotkey и Python, которая позволяет распознавать речь и автоматически вставлять текст. В этой статье мы рассмотрим, как создать такую программу, которая может быть полезна для множества задач, таких как написание текстов, заметок или выполнения команд без использования клавиатуры. Что понадобится? Для создания этого инструмента нам потребуется: Установка необходимых библиотек Прежде чем приступить к написанию кода, необходимо установить необходимые Python-библиотеки. Откройте командную строку и выполните следующие команды: pip install SpeechRecognition pyperclip PyAudio Часть на AutoHotkey Начнем с создания скрипта на AutoHotkey, который будет запускать Python-скрипт при нажатии комбинации клавиш и вставлять распознанный текст. ^RButton::

RunWait, python.exe recognition.py,,hide ; Запуск Python скрипта

send,^v

RunWait, python.exe recognition.py,,hide ; Запуск Python скрипта

send,^v

Оглавление

Введение
Что понадобится?
Установка необходимых библиотек

Введение

В мире, где цифровые технологии играют важную роль, инструменты для автоматизации задач становятся всё более популярными. Один из таких инструментов — это комбинация AutoHotkey и Python, которая позволяет распознавать речь и автоматически вставлять текст. В этой статье мы рассмотрим, как создать такую программу, которая может быть полезна для множества задач, таких как написание текстов, заметок или выполнения команд без использования клавиатуры.

Что понадобится?

Для создания этого инструмента нам потребуется:

AutoHotkey — скриптовый язык для автоматизации Windows.
Python и несколько библиотек:SpeechRecognition — для распознавания речи.
pyperclip — для работы с буфером обмена.
PyAudio — для работы с аудио.
winsound — для воспроизведения звуковых сигналов.

Установка необходимых библиотек

Прежде чем приступить к написанию кода, необходимо установить необходимые Python-библиотеки. Откройте командную строку и выполните следующие команды:

pip install SpeechRecognition pyperclip PyAudio

Часть на AutoHotkey

Начнем с создания скрипта на AutoHotkey, который будет запускать Python-скрипт при нажатии комбинации клавиш и вставлять распознанный текст.

^RButton::
RunWait, python.exe recognition.py,,hide ; Запуск Python скрипта
send,^v
Return

В этом скрипте:

^RButton обозначает комбинацию клавиш Ctrl + Правая кнопка мыши. Вы можете выбрать любое сочетание клавиш, которое вам удобно.
RunWait, python.exe recognition.py,,hide запускает Python-скрипт и ждет его завершения.
send,^v вставляет текст из буфера обмена (то, что было распознано и скопировано Python-скриптом).

Часть на Python

Теперь создадим Python-скрипт recognition.py, который будет заниматься распознаванием речи и копированием текста в буфер обмена.

import speech_recognition as sr
import pyperclip
import winsound

# Инициализация распознавателя
recognizer = sr.Recognizer()

# Функция распознавания речи
def recognize_speech():
with sr.Microphone() as source:
# Звуковой сигнал перед началом записи
winsound.Beep(400, 200)
recognizer.adjust_for_ambient_noise(source)
audio = recognizer.listen(source)
try:
print("Распознаю...")
# Используем русское API Google для распознавания речи
text = recognizer.recognize_google(audio, language="ru-RU")
print("Вы сказали:", text)
# Сохраняем расшифровку в клипборд
pyperclip.copy(text)
# Даем сигнал, что запись закончена
winsound.Beep(400, 200)
except sr.UnknownValueError:
print("Не удалось распознать аудио")
winsound.Beep(400, 200)
winsound.Beep(400, 200)
except sr.RequestError as e:
print(f"Ошибка при получении результатов от службы распознавания речи Google; {e}")
winsound.Beep(400, 200)
winsound.Beep(400, 200)
winsound.Beep(400, 200)

# Вызов функции распознавания речи
recognize_speech()

В этом скрипте:

speech_recognition используется для распознавания речи.
pyperclip позволяет копировать текст в буфер обмена.
winsound используется для воспроизведения звуковых сигналов, указывающих на начало и конец записи.

Как это работает?

При нажатии Ctrl + Правая кнопка мыши запускается скрипт на Python.
Python-скрипт активирует микрофон и начинает запись после звукового сигнала.
Происходит распознавание речи с использованием Google API.
Распознанный текст копируется в буфер обмена.
AutoHotkey скрипт вставляет текст из буфера обмена в текущее активное окно.

Видеоинструкция

Исходный код программы

github.com

GitHub - pokrovsky-marat/speech-recognition

Заключение

Эта простая комбинация Python и AutoHotkey позволяет значительно ускорить работу с текстом и автоматизировать процесс ввода данных. Она может быть полезна для всех, кто часто работает с текстами и хочет сэкономить время на ручном вводе. Попробуйте создать свой собственный инструмент и улучшите свою продуктивность!