Когнитивные фрустрации, как импирический подход к изучению себя

Улучшение звука записей с аудиокассет и радио с помощью локальной нейронки AudioSR

9 февраля9 фев

3 мин

Репозиторий AudioSR:

https://github.com/haoheliu/versatile_audio_super_resolution Даёшь ей запись в низком качестве — и она «глючит», дорисовывая высокие частоты и значительно улучшая качество звука. Серьёзно — сходите на их сайт и послушайте примеры:

https://audioldm.github.io/audiosr/ Говорят, её хорошо применять после Ultimate Vocal Remover (UVR5):

https://github.com/Anjok07/ultimatevocalremovergui Например: с помощью UVR5 с моделью De-Noise убрать шум кассеты, а потом достроить звук в AudioSR. Примечание: Скрипты изначально написаны для macOS (ARM64) и обработки музыки (не голоса). Для x86-систем их легко адаптировать — любой современный ИИ (включая Google AI) справится за секунды. Начните с организации изолированной среды. Python-библиотеки часто конфликтуют между собой, поэтому для стабильной работы используем Conda. Miniforge — это консольная версия Conda от сообщества conda-forge. Репозиторий:

https://github.com/conda-forge/miniforge curl -L -O "https://github.com/conda-fo

Репозиторий AudioSR:

https://audioldm.github.io/audiosr/ Говорят, её хорошо применять после Ultimate Vocal Remover (UVR5):

https://github.com/conda-forge/miniforge curl -L -O "https://github.com/conda-fo

Оглавление

AudioSR — локальная нейронная сеть для улучшения качества аудио
Что нужно для её работы (простой вариант)

AudioSR — локальная нейронная сеть для улучшения качества аудио

Репозиторий AudioSR:
https://github.com/haoheliu/versatile_audio_super_resolution

Даёшь ей запись в низком качестве — и она «глючит», дорисовывая высокие частоты и значительно улучшая качество звука. Серьёзно — сходите на их сайт и послушайте примеры:
https://audioldm.github.io/audiosr/

Говорят, её хорошо применять после Ultimate Vocal Remover (UVR5):
https://github.com/Anjok07/ultimatevocalremovergui

Например: с помощью UVR5 с моделью De-Noise убрать шум кассеты, а потом достроить звук в AudioSR.

Что нужно для её работы (простой вариант)

Скачайте Python-скрипты: https://disk.yandex.ru/d/ACpgBiLosjx-Mw
Перейдите в Google, откройте AI Mode и вставьте туда скрипты.
Укажите параметры своего компьютера и попросите ИИ:
оптимизировать скрипты под вашу архитектуру,
объяснить, как установить AudioSR.

Примечание: Скрипты изначально написаны для macOS (ARM64) и обработки музыки (не голоса). Для x86-систем их легко адаптировать — любой современный ИИ (включая Google AI) справится за секунды.

Как установить и настроить AudioSR (полный вариант)

Начните с организации изолированной среды. Python-библиотеки часто конфликтуют между собой, поэтому для стабильной работы используем Conda. Miniforge — это консольная версия Conda от сообщества conda-forge.

Установка Conda (Miniforge3)

Репозиторий:
https://github.com/conda-forge/miniforge

Windows
Скачайте установщик:
https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Windows-x86_64.exe
macOS / Linux
Выполните в терминале:

curl -L -O "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"
# или
wget "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"

Запустите скрипт:

bash Miniforge3-$(uname)-$(uname -m).sh

На все вопросы отвечайте yes. После завершения закройте окно терминала и откройте его заново.

Настройка среды и установка AudioSR

Создайте и активируйте среду:

conda create -n audiosr_gpu python=3.10 -y
conda activate audiosr_gpu

Установите PyTorch:

pip install torch torchvision torchaudio

Установите AudioSR и зависимости:

pip install audiosr
pip install librosa soundfile
pip install matplotlib setuptools chardet
pip install torchcodec

При первом запуске могут потребоваться дополнительные пакеты — устанавливайте по запросу.

Проверка архитектуры (только для macOS):
Критически важно, чтобы среда работала нативно под arm64, иначе GPU не будет задействован.python -c "import platform; print(platform.machine())"

Если вывод: arm64 → всё в порядке.
Если вывод: x86_64 → удалите среду и создайте заново, убедившись, что терминал запущен без Rosetta 2.

После активации среды приглашение терминала должно выглядеть так:

(audiosr_gpu) пользователь@имя_компьютера

Если отображается (base), выполните:

conda activate audiosr_gpu

При первом запуске AudioSR автоматически скачает веса модели (pytorch_model.bin, ~6.18 ГБ).

Полезные команды Conda

conda deactivate

Деактивировать текущую среду

conda env list

Показать список всех сред

conda deactivate && conda remove --name audiosr_gpu --all

Полностью удалить среду audiosr_gpu

Запуск скрипта

Перейдите в папку со скачанными скриптами (среда audiosr_gpu должна быть активна) и выполните:

python имя_скрипта.py

Примечания

Скрипты рассчитаны на MacBook Pro M2 Max. Нейросеть в памяти занимает ~16 ГБ.
Для обработки голоса (а не музыки) в скрипте найдите строку:model = build_model(model_name="basic", device=device)
и замените на:model = build_model(model_name="speech", device=device)

Описание назначения скриптов

Ссылка на архив со скриптами:
https://disk.yandex.ru/d/ACpgBiLosjx-Mw

gpu_audio_fixer_2026_Mid-Side_Processing.py

Для сильно повреждённых записей

Обрабатывает только Mid-канал (сумма L+R), Side-канал только ресэмплируется. Сохраняет фазу, ускоряет обработку в 2 раза, но сужает стереокартину.

gpu_audio_fixer_2026_pilot_channel.py

Универсальный вариант

Обрабатывает левый канал, правый «приклеивается» к тем же точкам стыков (Pilot Sync). Сохраняет АЧХ и стереопанораму без фазовых смещений.

gpu_audio_fixer_2026_true_stereo_dual-linked_SPM.py

Для качественных записей

Каждый канал обрабатывается независимо (Dual-Mono), но точки склейки выбираются совместно (Linked SPM). Максимальная прозрачность АЧХ, но возможны микросмещения каналов.

cpu_audio_fixer_2026_true_stereo_dual-linked_SPM.py

То же, что выше, но для CPU

Аналог предыдущего . Работает без использования видеокарты.

Важно: AudioSR обрабатывает аудио чанками по ~10 секунд (а не целиком). Чем длиннее чанк — тем хуже качество. Вариант с подачей стерео-тензора (оба канала сразу) был отклонён: звук становился «трубным» и неестественным.

ЗЫ: Всегда проверяйте архитектуру среды на macOS — работа через Rosetta 2 убивает производительность GPU.