2996 подписчиков

Не пустой звук. Как работают ЦАПы. Выбираем ЦАП.

24 июня 202424 июн 2024

1808

61 мин

Оглавление

PCM (ИКМ)
С чего все начиналось
INFO

Дамы и господа, аудиофилы и меломаны, здравствуйте. Добро пожаловать на Dzen канал магазина Demograf AE, посвященный аудиотехнике.

Сегодня у нас сборная очередная, интересная статья.

Напоминаем Вам, что ознакомиться с нашей аудиотехникой вы можете на сайте audio-tube.ru

audio-tube.ru

ЦАПы - Demograf

Отдельно отмечаем, что мнение Demograf Audio может не совпадать с мнением автора статьи.

Источник: xakep.ru

Итак, поехали!

Задумывался ли ты, как в цифровых устройствах воспроизводится звук? Как формируется звуковой сигнал из комбинации единиц и нулей? Наверняка задумывался, раз уже начал читать! Но часто даже у профессионалов есть лишь общее представление о современном звуковом тракте. Из этой статьи ты узнаешь, как появились разные форматы, что такое цифроаналоговый преобразователь, какие виды ЦАП бывают и от чего зависит качество воспроизведения звука.

PCM (ИКМ)

Как известно, в цифровом звуке практически любой формат, за редким исключением, записывается импульсно-кодовым потоком, или потоком PCM — pulse code modulation. FLAC, MP3, WAV, Audio CD, DVD-Audio и другие форматы — это лишь способы упаковки, «консервации» потока PCM.

С чего все начиналось

Теоретические основы цифровой передачи звука были разработаны еще на заре двадцатого века, когда ученые попытались передать звуковой сигнал на большое расстояние, но не по телефону, а довольно странным для того времени способом.

Разделив звуковую волну на небольшие части, ее можно было отправлять получателю в некоем математическом представлении. Получатель, в свою очередь, мог восстановить исходную волну и прослушать запись. Также перед учеными стояла задача увеличить пропускную способность «эфира».

В 1933 году увидела свет теорема В. А. Котельникова. В западных источниках ее называют теоремой Найквиста — Шеннона. Да, Гарри Найквист был первым, кто затронул эту тему: в 1927 году он рассчитал минимальную частоту дискретизации для передачи формы волны, впоследствии названную в его честь «частотой Найквиста», — но теорема Котельникова была издана на 16 лет раньше.

Суть теоремы проста: непрерывный сигнал можно представить в виде интерполяционного ряда, состоящего из дискретных отчетов, по которым можно заново восстановить сигнал. Чтобы была возможность восстановить приблизительно исходное состояние сигнала, частота дискретизации должна равняться как минимум удвоенной верхней граничной частоте этого сигнала.

Много лет теорема не была востребована — вплоть до прихода цифровой эпохи. Тут-то ей и нашлось применение. В частности, теорема пригодилась при разработке формата CDDA (Compact Disc Digital Audio), в простонародье его называют Audio CD или Red Book. Формат был выпущен инженерами Philips и Sony в 1980 году и стал стандартом для аудио-компакт-дисков.

Характеристики формата:

частота дискретизации — 44,1 кГц;
разрядность квантования — 16 бит.

INFO

Частота дискретизации — количество отсчетов сигнала, «взятых» при его дискретизации. Измеряется в герцах.
Разрядность квантования — количество двоичных разрядов, выражающих амплитуду сигнала. Измеряется в битах.

Частота дискретизации 44,1 кГц была рассчитана из теоремы Котельникова. Считается, что слух среднестатистического человека не способен уловить звук за пределами 19–22 кГц. Вероятно, частота 22 кГц и была выбрана в качестве верхней граничной.

22 000 × 2 = 44 000 + 100 = 44 100 Герц

Откуда взялось 100 Герц? Есть версия, что это небольшой запас на случай ошибок или передискретизации. На самом деле такую частоту в Sony выбрали из соображений совместимости со стандартом телевещания PAL.

Разрядность формата CDDA — 16 бит, или 65 536 отсчетов, что равняется динамическому диапазону примерно в 96 дБ. Такое большое число отсчетов выбрано не случайно. Во-первых, из-за сильного влияния шумов квантования, во-вторых, чтобы обеспечить формальный динамический диапазон выше, чем у главных тогда конкурентов — кассетных записей и виниловых пластинок. Я расскажу об этом подробнее в разделе про цифроаналоговые преобразователи.

Дальнейшее развитие PCM так и продолжилось по принципу умножения на два. Появились другие частоты дискретизации: сначала добавилась частота дискретизации 48 кГц, а в дальнейшем основанные на ней частоты 96, 192 и 384 кГц. Частота 44,1 кГц также удваивалась до 88,2, 176,4 и 352,8 кГц. Разрядность же увеличилась с 16 до 24, а позднее и до 32 бит.

Следующим после CDDA в 1987 году появился формат DAT — Digital Audio Tape. Частота дискретизации в нем составила 48 кГц, разрядность квантования не изменилась. И хотя формат провалился, частота дискретизации 48 кГц прижилась на студиях звукозаписи, как пишут, из-за удобства цифровой обработки.

В 1999 году вышел формат DVD-Audio, который позволял записать на один диск шесть стереодорожек с частотой дискретизации 96 кГц и разрядностью 24 бит или две стереодорожки с частотой 192 кГц, 24 бит.

В том же году был представлен формат SACD — Super Audio CD, но диски для него стали производить только спустя три года. Подробнее об этом формате я расскажу в разделе про DSD.

Это основные форматы, которые считаются стандартом для цифровых звукозаписей на носителях. Теперь рассмотрим, как передаются данные в цифровом звуковом тракте.

Структура цифрового звукового тракта

При проигрывании музыки происходит примерно следующее: плеер при помощи кодека, выполненного в виде устройства или программы, распаковывает файл в заданном формате (FLAC, MP3 и другие) или считывает данные с CD, DVD-Audio или SACD-диска, получая стандартный поток данных PCM. Затем этот поток передается через USB, LAN, S/PDIF, PCI и так далее в I2S-конвертер. В свою очередь, конвертер преобразует полученные данные в так называемые кадры интерфейса передачи данных I2S (не путать с I2С!).

I2S

I2S — это последовательная шина передачи цифрового аудиопотока. Сейчас I2S — стандарт для подключения источника сигнала (компьютер, проигрыватель) к цифроаналоговому преобразователю. Именно через нее подключается напрямую или опосредованно подавляющее большинство ЦАП. Существуют и другие стандарты передачи цифрового аудиопотока, но они используются гораздо реже.

Шина I2S может состоять из трех, четырех и даже пяти контактов:

continuous serial clock (SCK) — тактовый сигнал битовой синхронизации (может называться BCK или BCLK);
word select (WS) — тактовый сигнал кадровой синхронизации (может называться LRCK или FSYNC);
serial data (SD) — сигнал передаваемых данных (может называться DATA, SDOUT или SDATA). Как правило, данные передаются от передатчика к приемнику, но бывают устройства, которые могут выступать и приемником, и передатчиком одновременно. В таком случае может присутствовать еще один контакт;
serial data in (SDIN) — по этому контакту данные движутся в направлении приема, а не передачи.

SD или SDOUT служит для подключения цифроаналогового преобразователя, а SDIN используется для подключения аналого-цифрового преобразователя к шине I2S.

В большинстве случаев присутствует еще один контакт, Master Clock (MCLK или MCK), он используется для синхронизации приемника и передатчика от одного генератора тактовых импульсов, чтобы снизить коэффициент ошибок передачи данных. Для внешней синхронизации MCLK служат два генератора тактовых импульсов: с частотой 22 579 кГц и 24 576 кГц. Первый, 22 579 кГц, — для частот, кратных 44,1 кГц (88,2, 176,4, 352,8 кГц), а второй, 24 576 кГц, — для частот, кратных 48 кГц (96, 192, 384 кГц). Также могут встречаться генераторы на 45 158,4 кГц и 49 152 кГц — наверняка ты уже заметил, как в мире цифрового звука всё любят умножать на два.

В I2S обязательно используются три контакта: SCK, WS, SD — остальные контакты опциональны.

По каналу SCK передаются синхроимпульсы, под которые синхронизированы кадры.

По каналу WS передается длина «слова», при этом используются и логические состояния. Если на контакте WS логическая единица, значит, передаются данные правого канала, если ноль — данные левого канала.

По SD передаются биты данных — значения амплитуды звукового сигнала при квантовании, те самые 16, 24 или 32 бита. Никаких контрольных сумм и служебных каналов на шине I2S не предусмотрено. Если данные при передаче потеряются, возможности восстановить их не существует.

На дорогих ЦАП часто бывают внешние разъемы для подключения к I2S. Использование таких разъемов и кабелей может плохо отразиться на звуке, вплоть до появления «артефактов» и заиканий, все будет зависеть от качества и длины провода. Все же I2S это внутрисхемный разъем, и длина проводников от передатчика до приемника должна стремиться к нулю.

Рассмотрим, как передается поток данных PCM по шине I2S. Например, при передаче PCM 44,1 кГц с разрядностью 16 бит длина слова на канале SD будет соответствовать этим шестнадцати битам, а длина кадра будет 32 бита (правый канал + левый). Но чаще всего передающие устройства используют длину слова 24 бита.

При воспроизведении PCM 44,1 × 16 старшие биты либо попросту игнорируются, так как заполнены нулями, либо, в случае со старыми мультибитными ЦАП, они могут перейти на следующий кадр. Длина «слова» (WS) может также зависеть от плеера, через который воспроизводится музыка, а также от драйвера устройства воспроизведения.

Альтернативой PCM и I2S может быть запись звукового сигнала в DSD. Этот формат развивался параллельно с PCM, хотя и тут теорема Котельникова оказала некоторое влияние. Для улучшения качества звучания по сравнению с CDDA упор был сделан не на повышение разрядности квантования, как в формате DVD Audio, а на увеличение частоты дискретизации.

DSD

DSD расшифровывается как Direct Stream Digital. Он берет свое начало в лабораториях фирм Sony и Philips — впрочем, как и другие форматы, рассматриваемые в этой статье.

SACD

Впервые DSD увидел свет на дисках Super Audio CD в далеком 2002 году.

На тот момент SACD казался шедевром инженерной мысли, в нем был применен совершенно новый способ записи и воспроизведения, очень близкий к аналоговым устройствам. Реализация одновременно была простой и изящной.

Носитель даже оснастили защитой от копирования, хотя и без этого никакие пираты были не страшны. Под марками Sony и Philips стали выпускать «закрытые» устройства исключительно для воспроизведения, без какой-либо возможности копировать диски. Производители продавали студиям оборудование для записи, но при этом оставили за собой контроль за выпуском SACD-дисков.

Как знать, возможно, формат SACD мог бы обрести популярность, сравнимую с Audio CD, если бы не стоимость устройств воспроизведения. Безосновательно накручивая цены на проигрыватели, руководители Sony и Philips сами мешали популярности своего формата. А следующая ошибка и вовсе поставила крест на продажах специализированных устройств. Для продвижения игровой приставки Sony PlayStation инженеры Sony добавили возможность слушать на ней SACD. Хакеры тут же взломали приставку и стали копировать диски SACD в ISO-образы, которые можно записать на обычную болванку DVD и воспроизводить на любом плеере фирм-конкурентов; другие просто извлекали дорожки для воспроизведения на компьютере.

Звукозаписывающие компании тоже хороши: вопреки ожиданиям меломанов, они не пользовались всеми возможностями нового формата высокого разрешения. На студиях не записывали в DSD музыку с мастер-ленты, а брали цифровую запись в PCM, пересводили и обрабатывали всем подряд: лимитерами, компрессорами, дитерингом с нойз-шейпингом и различными цифровыми фильтрами. В итоге на выходе получался такой стерильный и сухой звук, что даже CD Audio мог бы звучать гораздо лучше. Таким образом было подорвано доверие слушателей к SACD, а заодно и к новым форматам вообще.

INFO

Увы, с виниловыми пластинками эта порочная практика применяется и по сей день: студии печатают винил с цифровой записи, даже если у них есть запись на мастер-ленте. Так что на современном виниле запросто может оказаться 44,1 × 16.

DSD

Что же представляет собой DSD? Это однобитный поток с очень высокой, по сравнению с PCM, частотой дискретизации. Также в DSD используется иной вид модуляции, PDM (Pulse Density Modulation) — плотностно-импульсная модуляция. Запись звука в таком формате производится однобитным аналого-цифровым преобразователем, сейчас такие АЦП на основе сигма-дельта-модуляции используются повсеместно. Процесс записи выглядит примерно так: пока амплитуда волны возрастает, на выходе АЦП логическая единица, когда амплитуда падает, на выходе логический ноль, среднего значения быть не может. Сравнивается с предыдущим значением амплитуды волны.

DSD позволяет достичь важных преимуществ по сравнению с PCM:

точнее прорисовка волны;
выше помехоустойчивость;
более простой способ коммутации и передачи цифрового потока;
теоретически есть возможность уменьшить стоимость, упростив схему ЦАП, но из-за обратной совместимости со старыми форматами производители вряд ли пойдут на это.

Изначально на SACD-дисках использовался формат DSD x64 c частотой дискретизации 2822,4 кГц. За основу взяли частоту дискретизации Audio CD 44,1 кГц, увеличенную в 64 раза, отсюда название x64. Сегодня реально используются следующие DSD:

x64 = 2822,4 кГц;
x128 = 5644,8 кГц;
x256 = 11 289,6 кГц;
x512 = 22 579,2 кГц;
заявлен DSD x1024.

DXD

Существует некий промежуточный формат между PCM и DSD под названием DXD — Digital extreme Definition. Это, по сути, PCM высокого разрешения — 352,8 кГц или 384 кГц с разрядностью квантования 24 или 32 бита. Он применяется в студиях для обработки и последующего сведения материалов.

Но такой подход ущербен: во-первых, он не позволяет задействовать все преимущества DSD, во-вторых, размер файлов получается больше, чем в DSD. На текущий момент флагманские ЦАП на входе I2S принимают поток данных PCM с частотой дискретизации до 768 кГц и разрядностью до 32 бит. Страшно даже считать, какой объем на жестком диске будет занимать один альбом в таком разрешении.

DSD практически отделился от SACD. Теперь формат DSD чаще можно встретить упакованным в файлы с расширением DSF и DFF. Выпущено множество проигрывателей с возможностью записи в DSF и DFF, любители хорошего звука все чаще и чаще оцифровывают виниловые пластинки именно в формате DSD. А вот на звукозаписывающих студиях никто не хочет вкладываться в малопопулярные форматы, так что там продолжают клепать звук на минималках: 44,1 × 16.

Коммутация DSD и передача данных

Для передачи цифрового потока в DSD используется трехконтактная схема подключения:

DSD Clock Pin (DCLK) — синхронизация;
DSD Lch Data Input Pin (DSDL) — данные левого канала;
DSD Rch Data Input Pin (DSDR) — данные правого канала.

В отличие от I2S, передача данных DSD предельно упрощена. DCLK задает тактовую частоту битовой синхронизации, а по контактам DSDL и DSDR последовательно передаются сами данные левого и правого канала соответственно. Никаких ухищрений тут нет, запись и воспроизведение в DSD делается побитно. Такой подход дает максимальное приближение к аналоговому сигналу, а за счет высокой частоты уменьшаются шумы квантования и на порядок повышается точность воспроизведения.

DOP

DoP часто применяется для передачи потока данных DSD, поэтому упомянуть о нем стоит. DoP — это открытый стандарт передачи данных DSD через кадры PCM (DSD over PCM). Стандарт создан для того, чтобы передавать поток через драйверы и устройства, не поддерживающие прямую передачу DSD (не DSD native).

Принцип работы такой: в 24-битном кадре PCM старшие 8 бит заполняются единицами — это значит, что в данный момент передаются данные DSD. Оставшиеся 16 бит заполняются последовательно битами данных DSD.

Для передачи DSD x64 с частотой однобитного потока 2822,4 кГц необходима частота дискретизации PCM, равная 176,4 кГц (176,4 × 16 = 2822,4 кГц). Для передачи DSD x128 с частотой 5644,8 кГц уже потребуется частота дискретизации PCM 352,8 кГц.

Цифроаналоговые преобразователи

Перейдем к ЦАП — цифро-аналоговым преобразователям. Эта сложная тема всегда покрыта завесой тайны и присыпана аудиофильской мистикой. К тому же вокруг цифроаналоговых преобразователей очень много спекуляций противоборствующих лагерей: маркетологов, аудиофилов и скептиков. Давай разберемся, в чем тут дело.

Мультибитные ЦАП

Вначале, когда только появился формат Audio CD, PCM преобразовывали в аналоговый сигнал при помощи мультибитных ЦАП. Они были построены на основе резистивной матрицы постоянного импеданса, так называемой матрицы R-2R.

Мультибитные ЦАП работают так: поток PCM разделяется на два канала, левый и правый, и переводится из последовательного представления сигнала в параллельное — например, при помощи сдвиговых регистров. В буфер одного регистра записываются данные правого канала, а в буфер другого — данные левого. Данные передаются одновременно по параллельным портам с заданной частотой дискретизации (чаще всего 44,1 кГц), как на изображении ниже, только параллельных выходов не восемь, а шестнадцать, потому что разрядность 16 бит. В зависимости от положения в кадре старшие и младшие биты будут встречать на пути следования электрического тока разное сопротивление, поскольку разным будет количество последовательно подключенных резисторов. Чем старше бит, тем больше должна быть его значимость.

Мультибитные ЦАП, или мультибиты, требуют очень качественных компонентов и точной подгонки резисторов, ведь любые неточности в номиналах компонентов суммируются. Это приводит к серьезным отклонениям от исходной волны и создает погрешность в несколько разрядов квантования.

В мультибитных ЦАП восьмидесятых годов нет никаких манипуляций с PCM. Мультибиты подключаются напрямую к шине I2S и проигрывают PCM как есть: пришли данные правого канала (16 бит), подождал данные второго канала (16 бит), выдал оба канала на резистивную матрицу — и так с частотой 44,1 кГц.

В восьмидесятые годы частота и разрядность определялись форматом СDDA, который стал практически эталонной реализацией теоремы Котельникова. С некоторыми оговорками так можно охарактеризовать и более поздний MP3. Только начиная с формата DVD Audio был пересмотрен подход к оцифровке и воспроизведению звука.

Так работали простейшие первые ЦАП, позднее стали использовать преобразователи с более сложным устройством. Схемы модернизировали, качество компонентов улучшалось, а еще в мультибитных ЦАП стали применять технологию oversampling. Oversampling — это передискретизация цифрового потока с повышением частоты дискретизации и разрядности квантования для уменьшения шума квантования.

Чтобы объяснить, зачем используется oversampling, необходимо рассказать о применении теоремы Котельникова на практике. Здесь все не так радужно, как представляется в мире математики, — ни о каком «с любой точностью», как написано в теореме, и речи не идет.

Теорема Котельникова

«Любую функцию F(t), состоящую из частот от 0 до f1, можно непрерывно передавать с любой точностью при помощи чисел, следующих друг за другом через 1/(2f1) секунд»

Следствия теоремы Котельникова:

любой аналоговый сигнал может быть восстановлен с какой угодно точностью по своим дискретным отсчетам, взятым с частотой f > 2fc, где fc — максимальная частота, которая ограничена спектром реального сигнала;
если максимальная частота в сигнале равна половине частоты дискретизации (наложение спектра) или превышает ее, то способа восстановить сигнал из дискретного в аналоговый без искажений не существует.

Если тебя интересуют подробности, можешь обратиться к первоисточнику — работе «О пропускной способности „эфира“ и проволоки в электросвязи» авторства В. А. Котельникова.

Сложности с теоремой Котельникова

Часто теорему Котельникова воспринимают слишком буквально и возводят в абсолют. Сколько я прочитал статей твердолобых скептиков о чудесных форматах MP3 и CDDA и о безумных аудиофилах, которые впаривают всем свои ненужные DVD-Audio и DSD! Конечно же, главным аргументом у них выступает теорема Котельникова.

Начнем с того, что частоты Найквиста на практике недостаточно для передачи точной формы волны. Из-за неидеальных условий неизбежно появляются шумы и искажения: шумы квантования при записи звукового сигнала, шумы округления при его обработке и воспроизведении и не только. Принято считать, что шумы квантования не могут быть меньше половины младшего разряда квантования. Это обусловлено тем, что при квантовании звукового сигнала делается округление до ближайшего разряда, в большую или меньшую сторону. Шумы округления также не могут быть меньше половины младшего разряда, или, как его еще называют, шага квантования. Есть еще собственные шумы АЦП и ЦАП, но для них сложно привести точную цифру, ведь на них влияет большое количество факторов: конкретная реализация, количество и качество компонентов и даже окружающая среда. Обычно собственные шумы составляют несколько разрядов квантования.

Из этого следует, что частота дискретизации должна быть значительно выше частоты Найквиста, чтобы компенсировать потери при оцифровке и последующем воспроизведении цифровой записи.

Приведу пример из конспекта лекций Э. И. Вологдина «Стандарты и системы цифровой звукозаписи»:

Как видно, пока пиковое значение входного сигнала не превышает 0,5 кванта, выходной сигнал квантователя равен нулю, то есть имеет место центральная отсечка. Это приводит к нелинейности преобразования и возникновению больших искажений при малых амплитудах ЗС. Пока значение A > 1,5, выходной сигнал демодулятора представляет собой последовательность прямоугольных импульсов, у которых с изменением уровня ЗС меняется длительность. Это обусловлено ошибками квантования, которые соизмеримы с амплитудой входного сигнала. Искажения начинают заметно уменьшаться только при A > 2.

За А взята амплитуда сигнала.

В приведенной цитате речь идет только о шуме квантования, причем взято минимально возможное значение — 1/2 шага квантования. Шумы округления оказывают примерно такое же влияние — минимум 1/2 шага квантования.

Кроме шумов, в цифровой записи могут появляться искажения, вызванные использованием ФНЧ — фильтра низких частот. По теореме Котельникова необходимо ограничить частоту звукового сигнала фильтром и принять ее за верхнюю граничную, из которой потом умножением на два вычисляют частоту Найквиста. Проблема в том, что в теореме рассматривается идеальный ФНЧ, которых в реальном мире не бывает. Приведу цитату из того же конспекта лекций Вологдина:

Для надежного подавления спектральных составляющих выше частоты Найквиста антиэлайзинговый ФНЧ должен иметь частоту среза несколько ниже частоты Найквиста и очень сильно (не меньше 90 дБ) подавлять составляющие спектра сигнала на этой частоте. Обычно это эллиптические фильтры 7...9 порядков. Высокая крутизна среза ФНЧ приводит к специфическим искажениям в виде «звона». Это связано с тем, что отклик на импульсное воздействие такого фильтра описывается осциллирующей функцией вида sinс (v). Чем выше крутизна среза ФНЧ, тем медленнее происходит затухание звуковых колебаний. Единственным способом борьбы с этими искажениями является повышение частоты выборок. Это позволяет уменьшить крутизну спада антиэлайзингового ФНЧ без уменьшения эффективности подавления спектральных составляющих выше частоты Найквиста.

Рассмотрю еще один интересный момент. В теореме Котельникова приводится бесконечный по времени сигнал, что противоречит условиям записи на носитель или в файл.

Теорема Котельникова дает предельные соотношения для идеализированных условий, среди которых следует отметить ограниченность спектра по частоте и бесконечное время наблюдения. Все реальные сигналы конечны во времени и имеют неограниченный по частоте спектр. Использование модели с ограниченным спектром и конечное время наблюдения приводят к погрешности при восстановлении непрерывного сигнала. Расчеты показывают, что на практике частота FД существенно превышает частоту дискретизации по Котельникову» (здесь FД — это частота дискретизации).

Источник — И. П. Ястребов «Дискретизация непрерывных сигналов во времени. Теорема Котельникова».

Чтобы обрисовать масштаб проблемы, приведу еще одну цитату.

Искажения, вызванные ошибками квантования, уверенно заметны на слух уже при восьмиразрядном кодировании, хотя при этом величина искажений не превышает 0,5%. Это значит, что при шестнадцатиразрядном кодировании, используемом при записи CD, реальный динамический диапазон цифрового звука не превышает 48 дБ, а не 96 дБ, как это пишется в рекламе».

Источник — Э. И. Вологдин «Цифровая звукозапись».

Выводы

Теорема Котельникова математически верна, но для практического ее применения требуется существенная коррекция. И частоту Найквиста можно обозначить скорее как минимально допустимую для восстановления приблизительной формы волны, но никак не для восстановления сигнала «с любой точностью». Для компенсации потерь при оцифровке и воспроизведении частота дискретизации должна быть не в два, а как минимум в несколько раз выше верхней граничной частоты.

На этом оставим в покое теорему Котельникова и перейдем к изучению различных шумов при записи, сведении и воспроизведении звукового сигнала.

Шумы

Существует множество видов шумов, влияющих на запись. Приведу основные: шум квантования, шум округления, дрожание апертуры, нелинейные искажения, аналоговый шум. Можешь познакомиться с описаниями четырех типов шумов и формулами, чтобы примерно понять, сколько искажений в оцифрованный сигнал вносит каждый вид.

Не стоит воспринимать термин «шум» как проявление именно знакомого всем «белого шума». Разные виды шумов воспринимаются по-разному, в данном контексте термин «шум» скорее нужно понимать как потерю части полезного сигнала.

Примерно рассчитать отдельный вид шума еще можно, но общий уровень шумов при оцифровке — едва ли. Это очень сложная математическая модель с множеством допущений. Попробуем пойти от обратного и проанализировать динамический диапазон записанного сигнала на АЦП (аналого-цифровом преобразователе) и сравнить его с теоретически возможным.

Уровень шума обычно рассчитывают по отношению к шагу квантования (один разряд) или к динамическому диапазону звукового сигнала. Динамический диапазон измеряется в децибелах, рассчитать его можно по формуле: DR = 20lg(2N), где N — разрядность квантования. Получается для 16 бит возможный динамический диапазон около 96 дБ, а для 24 бит около 144 дБ.

Возьму результаты тестирования моего студийного АЦП/ЦАП высшей ценовой категории. Он показал следующие результаты.

РЕЖИМ РАБОТЫ - 24 БИТ, 44 КГЦ

Динамический диапазон, дБ (А) - 119,3

Отлично

А вот результаты без усиления.

РЕЖИМ РАБОТЫ - 24 БИТ, 44 КГЦ

Динамический диапазон, дБ (А) - 112,6

Отлично

Забегая вперед, скажу, что в тестируемом АЦП используются технологии дитеринг (Dithering), нойз-шейпинг (Noise shaping), а также децимация, что позволяет расширить динамический диапазон и снизить уровень шума. Подробнее про эти технологии расскажу в следующем пункте.

А теперь прикинем: 24 бита равняются 144 дБ — это возможный динамический диапазон. От 144 дБ отнимем реальный динамический диапазон 119 дБ, потери от шумов составят лучшем случае 25 дБ, а в худшем 32 дБ. К сожалению, при 16 бит его не тестировали, но в соотношении результаты должны быть еще хуже, поскольку понижение разрядности неминуемо приводит к росту шумов. Получается, что примерно 1/5 часть сигнала просто теряется из-за шума.

Складывается далеко не радужная картина. А если копнуть глубже и учесть, как звук сводят на студии записи, становится не по себе. Как правило, готовое произведение сводят из семплов, в которых уже и так присутствуют указанные шумы, поскольку семплы записаны на подобном АЦП. Затем добавляют эффекты, которые как минимум приводят к передискретизации (resampling) и связанным с ней ошибкам округления.

Кроме того, плохие звукорежиссеры очень любят все пожать и выровнять, используя лимитеры и компрессоры, принцип работы которых основан на уменьшении динамического диапазона. Через все эти пытки проходит практически каждый семпл. Даже при использовании простого эквалайзера сигнал проходит через цифровой фильтр, который вносит шум округления как минимум в полшага квантования. При конечном сведении все семплы собираются в один поток, соответственно шумы каждого добавляются к шумам еще одной передискретизации. Но и это еще не все — при воспроизведении ЦАП добавляет собственные шумы и шум округления. Представляешь, что на самом деле остается от полезного сигнала?

Методы борьбы с шумами

Чтобы исправить это плачевное положение, были разработаны специальные технологии борьбы с шумами. Давай рассмотрим самые основные.

Oversampling

Технологию oversampling стали применять еще во времена мультибитных ЦАП для компенсации потерь, вызванных шумами. Принцип работы oversampling заключается в том, что к уже существующим дискретным отсчетам добавляются промежуточные, которые повторяют приблизительную форму волны. Промежуточные отсчеты либо рассчитываются с применением математической интерполяции, либо заполняются нулевыми значениями и передаются на цифровой фильтр. Обычно и тот и другой подход называют интерполяцией, а цифровой фильтр называют интерполирующим. Самым простым способом интерполяции является линейная интерполяция, а самым простым цифровым фильтром может выступать фильтр нижних частот.

Ниже — иллюстрация алгоритма интерполяции дискретного сигнала с коэффициентом 2. Красные точки обозначают исходные отсчеты сигнала, сплошные линии — непрерывный сигнал, представлением которого эти отсчеты являются. Сверху — исходный сигнал. В середине — этот же сигнал со вставленными нулевыми отсчетами (зеленые точки). Снизу — интерполированный сигнал (синие точки — интерполированные значения отсчетов).

Сначала стали применять только передискретизацию с повышением частоты, например с 44,1 до 176,4 кГц. Позднее применяли уже передискретизацию с повышением частоты дискретизации и увеличением разрядности квантования — этот процесс называется реквантование.

Хотя oversampling вносит шум округления, все же при его использовании благодаря расширению динамического диапазона сигнала снижается общая плотность шума, и последующая обработка сигнала окажет уже меньшее влияние. Каждое удвоение частоты дискретизации расширяет динамический диапазон примерно на один шаг квантования — 6 дБ — минус шум округления.

Как раз для возможности применить oversampling стали выпускать микросхемы мультибитных ЦАП, поддерживающие на входе цифровой поток до 192 × 24. Также появились аппаратные апсемплеры на основе DSP (digital signal processor).

Конечно, применение технологии oversampling давало улучшение характеристик звукового сигнала, но кардинально ситуацию не меняло: уровень шума все равно оставался высоким. Поэтому стали применяться и другие технологии.

Децимация

Для записи и сведения звукового сигнала начали использовать децимацию — это обратный процесс, передискретизация с понижением частоты дискретизации и разрядности квантования. Сигнал записывается с высокой частотой дискретизации и разрядностью квантования, например 176,4 или 192 кГц с разрядностью 24 бит, и при помощи удаления части отсчетов цифровым фильтром «сжимается» до стандарта CDDA — 44,1 кГц, 16 бит. Этот подход позволяет немного снизить уровень шума квантования.

Ниже — иллюстрация алгоритма децимации дискретного сигнала с коэффициентом 2. Красные точки обозначают отсчеты, сплошные линии — непрерывный сигнал, представлением которого эти отсчеты являются. Сверху — исходный сигнал. В середине — этот же сигнал после фильтрации в цифровом фильтре нижних частот. Снизу — децимированный сигнал.

Dithering

Dithering (дитеринг) — метод подмешивания псевдослучайного шума при оцифровке или воспроизведении звукового сигнала. Эта технология выполняет две задачи:

линеаризация передаточной функции квантователя/реквантователя;
декорреляция ошибок квантования.

Шумы квантования имеют корреляцию, то есть взаимосвязь с основным сигналом. Это создает паразитные гармоники, которые повторяют форму сигнала. Они влияют на восприятие, создавая ощущение «нечеткости» звучания. Корреляцию можно убрать, добавляя специально смоделированный шум в основной сигнал, — таким образом коррелированный шум квантования превращается в обычный белый шум. Это немного поднимает общий шумовой уровень, но хорошо сказывается на восприятии.

Дитеринг на примере обработки изображений: до и после

Noise shaping (нойз-шейпинг)

Технология noise shaping (NS) позволяет значительно уменьшить шум, вносимый при квантовании, реквантовании и дитеринге.

Нойз-шейпинг работает так: квантованный сигнал на входе сравнивается с сигналом на выходе реквантователя, формируется разница (ошибка), которая вычитается из основного сигнала. Тем самым компенсируются искажения, внесенные реквантователем и в процессе дитеринга. Образуется так называемая обратная связь, которая стремится компенсировать ошибку на входе и выходе реквантователя. Эта технология работает подобно отрицательной обратной связи на операционном усилителе, только все преобразования происходят в цифровом виде.

Здесь приведена схема реквантователя первого порядка, но, как правило, используются реквантователи вплоть до 9–12-го порядка

У этой технологии есть свои минусы. Применение NS вносит большое количество шумов в область высоких частот, поэтому необходимо применять фильтр низких частот, с частотой среза, близкой к верхней граничной частоте. На практике вместе с NS всегда применяют еще и дитеринг, результат их совместной работы намного лучше на слух.

Dynamic Element Matching

Dynamic Element Matching (DEM) — технология, которая формирует на выходе ЦАП несколько уровней сигнала. Она похожа на нечто среднее между однобитным и мультибитным ЦАП. DEM служит для снижения детерминированных ошибок при использовании сигма-дельта-модуляции (SDM). Эти ошибки, подобно шумам квантования, сильно коррелированы с сигналом на выходе однобитного модулятора, поэтому значительно влияют на восприятие звукового сигнала.

Также эта технология снижает требования к аналоговому фильтру, потому что форма сигнала еще до фильтрации приближается к форме воспроизводимой волны. DEM реализуется при помощи нескольких выводов, соединенных в общую шину, которые формируют выходной сигнал ЦАП.

Кроме рассмотренных, применяются и другие технологии, а также их сочетания и вариации. Особенно производители любят экспериментировать с цифровой фильтрацией и модуляторами, изобретая все новые и новые цифровые фильтры, влияющие на сигнал как в лучшую, так и в худшую сторону. Алгоритмы обработки цифрового сигнала современных ЦАП, как правило, сложны и включают все перечисленное, а также собственные наработки производителей. Разумеется, производители не публикуют алгоритмы фильтров и модуляторов, в лучшем случае приводят примерную блок-схему. Так что остается только предполагать, что на самом деле происходит со звуковым сигналом внутри того или иного цифроаналогового преобразователя.

Сигма-дельта-преобразователи

Сигма-дельта цифроаналоговые преобразователи развивались обособленно от мультибитных ЦАП. За основу была взята, как понятно из названия, сигма-дельта-модуляция, в литературе она обычно обозначается аббревиатурой SDM. В сигма-дельта-модуляции передается не абсолютное значение амплитуды сигнала за единицу времени, как в мультибитных ЦАП, а изменения сигнала относительно предыдущего значения. Так, если амплитуда возрастает, передается 1, а если падает — 0. Подобный принцип уже был описан в разделе про DSD.

Первые сигма-дельта-ЦАП были полностью однобитными, но за счет высокой частоты дискретизации обеспечивали динамический диапазон на уровне примерно 129 дБ. За основу взяли частоту дискретизации 44,1 кГц. Вероятно, выбранная частота позволяла экономить аппаратные ресурсы благодаря упрощению вычислений при интерполяции.

Сначала использовали частоту 2,8 МГц, это 44,1 кГц, увеличенная в 64 раза. Сейчас частота может быть разной, она определяется внутренней архитектурой самого ЦАП. Обычно она основана на частотных сетках, кратных 44,1 кГц и 48 кГц, с множителем 64, 128, 256, 512, 1024.

Со временем дельта-сигма-ЦАП практически полностью вытеснили мультибитные, просто по экономическим причинам. Во-первых, их требования к качеству и точности компонентов гораздо ниже, чем у мультибитных ЦАП, соответственно, и себестоимость ниже. Во-вторых, в восьмидесятые — девяностые годы стоимость реализации интерполяции и noise shaping для однобитного модулятора была существенно меньше, чем для 16 бит. Сейчас, с развитием технологий, это не так критично, и многие сигма-дельта-ЦАП имеют, подобно мультибитам, несколько уровней на выходе. Но за счет многократного увеличения частоты требования к компонентам остаются не очень высокими, поэтому первое преимущество сохраняется и по сей день.

Современные сигма-дельта-ЦАП имеют сложную структуру и включают в себя практически все технологии, перечисленные в предыдущей главе. Приведу пример внутренней структуры одного из простых сигма-дельта-ЦАП из лекций Вологдина.

Входные цифровые 16-разрядные выборки с частотой дискретизации 44,1 кГц подаются на вход цифрового фильтра передискретизации. В схеме используется нерекурсивный с четырехкратной передискретизацией FIR (finite impulse response) интерполяционный фильтр с линейной фазовой характеристикой. На первом этапе модуляции в результате переквантования число разрядов в выборках понижается с 16 до 14 и используется SDM 1-го порядка. Затем еще раз производится передискретизация c помощью двух ступеней (Kos = 32 и 2). Между этими ступенями в тракт вводится шумовой сигнал, осуществляющий операцию «Dithering» с уровнем шума, равным минус 20 дБ. Она уменьшает нелинейность передаточной функции из-за ошибок квантования. Общий коэффициент передискретизации равен 256, и частота дискретизации увеличивается до 11,29 МГц. Во второй ступени модуляции используется SDM 2-го порядка и формируется одноразрядный цифровой поток. К выходу ЦАП подключается время-импульсный цифровой модулятор, преобразующий цифровые данные в последовательность импульсов, модулированных по плотности (PDM).

Если обобщить и упростить, происходит примерно следующее. На вход ЦАП подается поток данных PCM через разъем I2S, подвергается интерполяции (oversampling), далее добавляется шум (dithering), и затем поток подается на реквантователь с обратной связью (noise shaping). В конце формируется однобитный поток, он проходит через аналоговый фильтр нижних частот, где уже и получается конечный звуковой сигнал, который мы слышим.

Многоразрядный ЦАП устроен сложнее: кроме перечисленного, в нем используется еще и технология DEM.

Современные цифроаналоговые преобразователи — устройства сложные. Но применение этих технологий необходимо для искусственного расширения динамического диапазона, и по большому счету они используются, чтобы преодолеть ограничения форматов CDDA и MP3. Если бы записи изначально выпускали в высоком разрешении PCM (192 × 24), а лучше в формате DSD, то не пришлось бы применять так много технологий и сложных цифровых преобразований. В случае с DSD вмешательство в квантованный сигнал и вовсе не нужно, по крайней мере при воспроизведении.

PCM DAC (ИКМ ЦАП)

Обычно звуковой тракт можно разделить на три части:

источник;
I2S-преобразователь (конвертер);
I2S ЦАП.

Источник

В качестве источника может выступать компьютер, планшет, телефон или микрокомпьютер вроде Raspberry Pi. В отдельных случаях источник и конвертер могут быть выполнены в одном устройстве — это проигрыватели с выходом I2S или микрокомпьютеры.

I2S-преобразователь (конвертер)

Преобразователи I2S могут подключаться к источнику с помощью разных интерфейсов: USB, S/PDIF, LAN. Есть еще вариации с Bluetooth, но нас они не интересуют, потому что высокого качества в такой системе не добиться. Скорость передачи данных Bluetooth очень мала, о Hi-Res (192 × 24, DSD) можно забыть сразу. Но даже при прослушивании MP3 (44,1 × 16), цифровой поток проходит через несколько цифровых фильтров, к тому же с обрезкой частоты звукового сигнала.

Кстати говоря, то же относится и к блютусным наушникам. Дело ухудшается тем, что в наушниках из-за малого размера сложно разместить полноценный ЦАП и питание к нему, поэтому, как правило, используют «урезанные» версии.

USB

Самый распространенный вариант преобразователей I2S — конвертеры USB — I2S.

Все просто: подключаем к порту USB источника, устанавливаем драйвер и при проигрывании на выходе I2S получаем поток данных PCM или DSD. В операционной системе конвертер определяется как звуковое устройство или звуковая карта. Предложений конвертеров USB — I2S огромное количество, те же AliExpress или eBay выдадут вам десятки вариантов по запросу usb to i2s.

S/PDIF

Множество коммерческих — проприетарных — ЦАП подключаются через разъем S/PDIF.

Не так давно S/PDIF был популярным интерфейсом и встречался почти в каждой звуковой карте, даже в самых дешевых, встроенных в материнские платы ПК. Но не все знают, что почти всегда S/PDIF — это промежуточное звено и используется чаще в роли транспорта. Либо у источника, либо у ЦАП в большинстве случаев S/PDIF подключен через I2S. Другими словами, сигнал передается не напрямую, а вначале конвертируется из I2S в S/PDIF, а потом обратно.

Не берусь называть конкретные цифры, но считается, что потери при конвертации и передаче имеются. Кроме того, у S/PDIF есть и другие недостатки — скорость передачи и стоимость. Самые дешевые DIY-устройства USB to S/PDIF стоят около 4000 рублей, а передавать по ним возможно максимум PCM 192 × 24 или DSD64 через DOP.

Таким образом, использовать S/PDIF нецелесообразно, если есть другие варианты.

LAN

Теперь рассмотрим подключение I2S-конвертера по LAN (локальной сети). Для этого используются специальные программные плееры: Squeezelite, HQPlayer, Roon и другие. Они устанавливаются на основной компьютер, который выступает в роли передатчика (источника). При воспроизведении выполняется распаковка, декодирование и, если требуется, обработка цифрового потока. Далее цифровой аудиопоток через определенный сетевой протокол передается на приемник — чаще всего микрокомпьютер. Далее микрокомпьютер либо сам конвертирует полученный поток в I2S, либо передает поток на конвертер, подключенный к нему по USB. Существуют и самодельные решения, основанные, например, на микрокомпьютерах BeagleBone black или Raspberry Pi, и серийные решения различных производителей.

Часто встречаются устройства, которые объединяют в себе одновременно источник и конвертер, конвертер и ЦАП или сразу все в одном устройстве.

I2S ЦАП

Цифроаналоговых преобразователей с входом I2S огромное количество. Мы не будем рассматривать полностью собранные серийные ЦАП; нас больше интересуют самоделки. Самый простой и дешевый способ послушать тот или иной ЦАП — купить готовую самодельную плату с ЦАП. Можно поискать ЦАП без питания и предусиления, если захочешь допилить самостоятельно. Для первого раза можно взять что-нибудь простенькое и дешевое, как плата на чипе PCM5102A на фото.

Самодельная плата на чипе PCM5102A компании Texas Instruments

В качестве конвертера в моем случае будет Amanero компании Amanero Technologies.

Все необходимое для PCM5102A можно подать прямо с конвертера: питание — VIN соединить с контактом 3,3 В, землю GNG c землей конвертера GND, LCK c контактом FSCLK конвертера, DIN c DATA, BCK c BCLK. А вот SCK и MCLK в PCM5102A соединять не обязательно, он сможет работать и без дополнительной синхронизации. Но для повышения точности, если есть такая возможность, MCLK лучше все же подключать. Аналогичным образом этот ЦАП можно подсоединить и к Raspberry Pi.

Как видишь, все просто и специальных знаний не требуется! Подобным образом к I2S можно подключить и другие цифроаналоговые преобразователи. Для воспроизведения через USB подойдут практически любые плееры. На Raspberry Pi новичкам можно посоветовать Volumio, а более продвинутым слушателям сборку с Album Player.

Для начинающих этой информации хватит, особенно для первого раза. Для тех же, кто не боится трудностей, продолжу повествование, уровень сложности будет возрастать.

DSD ЦАП

Изучим на практике способы передачи и воспроизведения DSD.

Обычно поток данных DSD в самодельных устройствах передается от источника к цифроаналоговому преобразователю через I2S-конвертер. Далеко не все конвертеры поддерживают DSD, поэтому перед покупкой обязательно нужно удостовериться, что в спецификациях указана поддержка DSD. Самые дешевые конвертеры USB to I2S с поддержкой DSD — это преобразователи Amanero или их копии, а также конвертеры с применением процессоров XMOS.

Нужно учесть, что не все плееры поддерживают воспроизведение DSD и не все драйверы в состоянии передать чистый DSD (DSD native), даже если плеер на это способен. Ограничение драйвера можно преодолеть, используя DOP (DSD over PCM), соответственно, плеер тоже должен иметь возможность преобразования DSD в DOP.

В случае Amanero и XMOS поток DSD передается к ЦАП по тем же выходам I2S: DATA передает данные правого канала, LRCK — данные левого, а BCLK — битовую синхронизацию этих данных.

Воспроизвести поток DSD можно разными способами, стоит выделить три:

проприетарные ЦАП;
через ФНЧ;
самодельные ЦАП.

Проприетарный ЦАП

Большинство коммерческих ЦАП, которые поддерживают воспроизведение DSD, принимают и PCM, и DSD через один и тот же разъем I2S. В этом случае достаточно подключить контакты конвертера и ЦАП способом, описанным выше, и переключение между PCM и DSD будет работать автоматически. Бывают отдельные входы для DSD, но это реализовано для раздельного подключения устройств, использовать их в большинстве случаев не обязательно.

Воспроизведение через ФНЧ

Этот способ подкупает своей простотой и, кстати, неплохим звучанием. Суть его, как понятно из названия, заключается в воспроизведении DSD напрямую через фильтр нижних частот, без использования какого-либо цифроаналогового преобразователя. Когда я узнал об этом способе впервые, отнесся скептически, но оказалось, что звучит такой вариант лучше, чем все ЦАП, которые я слушал до этого. Не хочу никого убеждать, но сам я теперь вряд ли вернусь к проприетарным цифроаналоговым преобразователям.

Единственная проблема: контента, доступного в DSD, значительно меньше, чем в Audio CD. Но тут нас спасет конвертация PCM в DSD — она может выполняться как заранее, перед прослушиванием, так и в реальном времени. Делать это можно на ПК или мобильных девайсах с iOS и Android, а в качестве передатчика будет выступать I2S-конвертер.

Принцип работы

В формате DSD используется плотностно-импульсная модуляция, на выходе I2S рядом стоящие положительные импульсы (логические единицы) складываются в один продолжительный по времени импульс, и напряжение растет. Отсутствие положительных импульсов приводит к падению напряжения.

Поток логических единиц и нулей последовательный, так что, если подключить выход одного из каналов DSD к фильтру нижних частот и убрать постоянную составляющую, можно получить модулированный сигнал, который, в свою очередь, можно подать на вход усилителя. Подобным образом преобразовывали цифровой поток в аналоговый сигнал однобитные сигма-дельта-цифроаналоговые преобразователи.

Выбор фильтра

В качестве фильтра нижних частот может выступать простая RС- или RL-цепь, а для удаления постоянной составляющей сигнала достаточно обычного конденсатора.

Рассчитать такие фильтры просто. RC (сопротивление, емкость) рассчитывается по формуле fc = 1/2πRC, RL (сопротивление, индуктивность) — по формуле fc = R/2πL, где fc — частота среза фильтра, ее лучше выбирать в диапазоне от 25 до 50 кГц.

Для удобства можно использовать онлайновый калькулятор.

Емкость конденсатора (на схеме справа) для удаления постоянной составляющей рассчитывается как RC ФВЧ — фильтр верхних частот.

По формуле fc = 1/2πRC, где в качестве сопротивления выступает переменный резистор на входе усилителя (предусилителя). Соответственно, R будет равно номинальному сопротивлению этого резистора. Емкость конденсатора нужно выбрать такую, чтобы частота среза не превышала 30 Гц. Можно также воспользоваться специальным калькулятором.

Важный момент: для нормального воспроизведения необходим фильтр с хорошей крутизной среза, иначе высокочастотные составляющие сигнала могут привести к интермодуляционным искажениям и перегрузке усилителя (предусилителя). Для увеличения крутизны среза используют фильтры нескольких порядков.

Выбор порядка фильтра и частоты среза будет во многом зависеть от усилителя (предусилителя). Например, для многих транзисторных усилителей ФНЧ первого порядка будет недостаточно, и это приведет к шумам и искажениям. А для ламповых усилителей ФНЧ первого порядка может быть вполне достаточно.

В выборе фильтра важно, как усилитель реагирует на высокие частоты. Определить это можно, меняя порядок фильтра и частоту среза. Необходимо будет искать компромисс между «звучанием» и уровнем искажений. При срезе ФНЧ ниже 20 кГц сильно ухудшается качество звучания, при слишком высоком срезе может появиться шум или эффекты перегрузки. На каких-то усилителях достаточно будет фильтра первого порядка и частоты среза в 40–50 кГц, а на других придется использовать ФНЧ второго-третьего порядка и понижать частоту среза до 25 кГц. Чем ниже частота среза ФНЧ, тем больше влияния на сигнал он оказывает, потому что уровень сигнала падает постепенно, затрагивая и другие частоты еще до выбранной частоты среза. Подробнее можно прочитать в работе по ФНЧ.

DIY ЦАП

Наконец мы добрались до собственноручной сборки ЦАП с минимальными затратами. Концепции будут расположены от самого простого варианта к более сложному.

Предусиление

При прослушивании через ФНЧ может понадобиться усилить низкий уровень громкости. Если усилитель недостаточно мощный или ты хочешь слушать музыку через наушники без подключения к усилителю, тебе понадобится предусилитель. Посмотрим, какие бывают варианты.

Стационарный вариант

Для стационарного варианта лучше всего себя зарекомендовали повышающие входные трансформаторы, например такой, как на фото.

Они увеличивают напряжение сигнала примерно в четыре раза, их можно подключить к балансному входу-выходу, диапазон воспроизводимых частот 20 Гц — 20 кГц. Стоимость примерно 2000 рублей за пару; это одни из самых дешевых трансформаторов, но свою задачу они выполняют.

У способа усиления с помощью трансформаторов, конечно, есть и недостатки.

Во-первых, цена: эти трансформаторы дешевые, но, если ты захочешь более качественный вариант, он может обойтись уже в десятки раз дороже.

Во-вторых, трансформаторы усиливают лишь напряжение, поэтому сами по себе их использовать нельзя, только в связке с усилителем.

Для использования необходимо убрать постоянную составляющую, для этого на вход трансформатора нужно последовательно подключить конденсатор. Причем конденсатор должен быть большой емкости, поскольку именно конденсатор и входное сопротивление трансформатора формируют фильтр высоких частот.

Для расчета емкости конденсатора нужно взять сопротивление трансформатора, в данном случае 600 Ом, и подставить в формулу fc = 1/2πRC; частоту среза следует выбирать минимальную. Я использовал конденсаторы на 22 мкФ, частота среза получилась около 12 Гц.

Старайся использовать качественные конденсаторы с низким значением ESR. Дело в том, что они могут оказать сильное влияние на сигнал, а ведь он будет проходить напрямую через них.

Еще нужно будет использовать ФНЧ, чтобы убрать высокочастотный шум. Здесь должно хватить фильтра первого порядка. Трансформаторы имеют определенную полосу пропускания, и при совместном использовании с ФНЧ увеличивается крутизна среза. С трансформатором логичнее всего использовать RL-фильтр (сопротивление, индуктивность), в котором в качестве сопротивления R будет выступать входное сопротивление трансформатора, а в качестве индуктивности — катушка индуктивности, в данном случае 2,2–2,7 мГн (миллигенри).

Индуктивный фильтр можно рассчитать калькулятором.

Такой способ предусиления хорошо подходит для стационарного использования, но носить с собой трансформаторы и усилитель, пусть даже небольшого размера, вряд ли кому-то захочется. Давай рассмотрим, как можно собрать переносное устройство, которое легко поместится в карман.

Портативный вариант

Для портативного варианта лучше всего подойдет предусилитель на микросхеме с однополярным питанием не более 5 В. Чтобы пойти по пути наименьшего сопротивления, в прямом и переносном смысле, хорошо бы собрать все в одном: активный ФНЧ и предусилитель на операционном усилителе. Подобрать и рассчитать такой фильтр можно и вручную, но проще всего использовать онлайн-приложения для расчетов, например Analog Filter Wizard компании Analog Devices или Filter Design Tool, предоставленный компанией Texas Instruments. Веб-приложения просты в обращении, тебе нужно указать следующие параметры:

тип фильтра — Low Pass;
усиление, Gain — можно задать в вольтах, оно не должно превышать значения питания;
Passband — нужная частота среза;
параметр Stopband нужно задать таким образом, чтобы получился фильтр второго порядка — 2nd order, иначе придется использовать два и более операционных усилителя;
напряжение питания +Vs — 3–5 В, -Vs — 0 В.

Исходя из характеристик, выбирай микросхему, для которой будут производиться расчеты. Готово!

Я использовал Analog Filter Wizard, и у меня получилась следующая схема.

Спецификации

Напряжение питания (supply voltage): +Vs: 3 В; -Vs: 0 В
Усиление (Gain): 3 В/В
Полоса пропускания (Passband): –3 дБ при 35 кГц
Полоса подавления (Stopband): –40 дБ при 500 кГц

Если ты не любишь паять или не разбираешься в электротехнике, можешь купить готовый предусилитель с фильтром, например на AliExpress.

Но придется потратиться: таких фильтров нужно две штуки, по одной на канал. Или можно купить вариант на два канала.

Он рассчитан на балансное подключение, при котором каждый канал передается отдельно по трехпроводной схеме: по одному проводу передается основной сигнал, по второму проводу этот же сигнал в противофазе, а третий провод — это земля. Поэтому подключать напрямую — не лучшая идея. Но можно получить сигнал в противофазе, инвертируя выход DSD при помощи операционного усилителя, либо триггера Шмитта, либо логического инвертора.

Важно получить два идентичных сигнала в противофазе. Даже малейшие различия будут оказывать значительное влияние на выходной сигнал.

При выборе элементов обязательно нужно обратить внимание на то, с какой частотой они могут работать, потому что частота потока DSD может варьироваться от 2822,4 до 24 576 кГц. Также настоятельно рекомендую использовать гальваническую развязку.

Так реализуется подключение по балансной схеме. В интернете можно найти и другие варианты готовых фильтров-предусилителей.

Сборка портативного варианта

Если ты не ищешь легких путей, давай перейдем к сборке.

Железо

В качестве I2S-конвертера можно использовать следующие платы.

Оригинальный Amanero. Стоимость около 7000 рублей.
Китайская копия, плата ATSAM3U1C XC2C64A. Минимальная стоимость «репликанта» около 2000 рублей. Это почти полная копия Amanero, основное их отличие в качестве материала самой платы и компонентов.
Платы на основе чипов Xmos. Стоимость от 1700 рублей, принцип подключения будет тот же, но у них высокое энергопотребление.

В качестве фильтра и предусилителя используем AD8656 — операционный усилитель.

Также понадобятся расходники — резисторы и конденсаторы, указанные в схеме подключения.

В идеале для контактов FSCLK и DATA нужно использовать гальваническую развязку. Развязку ищи с запасом по скорости передачи данных — от 25 Мбит/с, а напряжение питания развязки выбирай в диапазоне 2,7–5,5 В. Для питания операционного усилителя лучше всего использовать отдельный малошумящий стабилизатор напряжения. На входе можно добавить сопротивление для ограничения уровня сигнала, а на выход добавить ФНЧ. Вот и все!

Получившееся устройство не занимает много места, и его можно подключить через OTG к телефону или планшету.

Софт

Драйверы для Windows для Amanero и китайской реплики (ATSAM3U1C XC2C64A) можно скачать с сайта Amanero. В Linux и Android драйверы не нужны, на iOS, вероятно, тоже.

Для мобильных устройств существуют десятки плееров с поддержкой Hi-Res PCM. Однако через фильтр можно слушать только DSD, поэтому необходима конвертация PCM в DSD. К счастью, есть плеер, который конвертирует в реальном времени, — Onkyo HF Player. Этот плеер из MP3 и FLAC может конвертировать в DSD64 и 128. При помощи Onkyo HF Player ты можешь слушать практически любую музыку через простой ФНЧ. Жаль, конечно, что плеер не бесплатен: для Android он стоит 699, а для iOS — 749 рублей.

Воспроизведение DSD через ФНЧ выигрывает по сравнению с классическим способом воспроизведения через ЦАП.

Во-первых, звук получается гораздо лучше, чем на многих ЦАП.

Почему так? Основная составная часть дельта-сигма-ЦАП — это цифровая обработка сигнала. Представь сложный цифровой фильтр с многократным оверсемплингом, модулятором 5–7-го порядка с dithering или noise shaping. Тут требуется серьезная вычислительная мощность, которая в ЦАП ограничена, тогда как в современных процессорах для смартфонов она в разы больше. Соответственно, на смартфоне можно реализовать более качественную цифровую фильтрацию и модуляцию.

Почему производители не добавляют мощные процессоры в ЦАП — загадка! Может, экономят, а может, считают, что обработкой должно заниматься отдельное устройство. Например, Asahi Kasei Microdevices (AKM) выпускают отдельно DSP, которые занимаются конвертацией, в том числе c оверсемплингом, — и отдельно ЦАП с режимом bypass.

INFO

Чтобы освежить в памяти термины и теорию, смотри мою прошлую статью о цифровом звуке.

Во-вторых, воспроизведение DSD через ФНЧ существенно экономит деньги, ведь стоимость хорошего ЦАП, даже китайского, будет гораздо выше.

Итого

Плюсы

Такое устройство легко сделать самому, даже если ты начинающий радиолюбитель.
Есть возможность подключения к мобильным устройствам.
Стоимость от 2000 рублей.
На телефоне с батареей в 3200 мА ⋅ ч этот самодельный ЦАП проработал больше шести часов в режиме прослушивания с конвертацией PCM — DSD в реальном времени.
Звук, по моим ощущениям, лучше многих топовых ЦАП.

Минусы

Выход одноуровневый, поэтому шум будет коррелирован с основным сигналом. При слабом уровне сигнала возможны небольшие искажения.

Сборка стационарного варианта

Этот вариант будет гораздо сложнее в реализации, но оно того стоит.

Железо

Наилучший результат даст использование BeagleBone black или BeagleBone green в качестве I2S-конвертера.

BeagleBone — единственный микрокомпьютер, для которого есть открытый драйвер с поддержкой подключения внешнего генератора тактовой частоты. К внешнему генератору можно подключить как сам конвертер, так и ЦАП, если он есть. Это позволит снизить количество ошибок при передаче данных по I2S. А еще мы можем сами выбирать, какого качества и какой частоты генератор использовать.

ЦАП для прослушивания DSD в этом варианте не требуется. Но важно подключение качественных генераторов 45 158,4 и 49 152 кГц при воспроизведении DSD 256, 512, потому что частота однобитного сигнала будет очень высокой — 11 289,6 и 22 579,2 кГц соответственно. Частота тактового генератора MCLK должна быть хотя бы вдвое больше частоты передаваемых данных, иначе могут возникнуть ошибки при передаче.

Внешний клок

Первое, что тебе потребуется, — внешний генератор тактовой частоты, в простонародье «клок». У тебя, как обычно, два пути: если ты дружишь с паяльником, можешь собрать его самостоятельно, если нет — купить готовое решение.

У Павла Погодина есть проект DSC — ЦАП под открытой лицензией. На сайте выложена документация к ЦАП Павла, там же ты найдешь схему реклокера для BeagleBone. В этой схеме реализовано подключение внешних клоков и автоматическое переключение их под частотные сетки 44,1/48. Можешь взять ее за основу и собрать нечто похожее.

Эта плата разработана для воспроизведения как PCM, так и DSD, но если тебя, как и меня, интересует исключительно воспроизведение DSD, то можно обойтись только следующей частью схемы.

INFO

Все названия элементов и номиналы указаны в документации (PDF).

И конечно, самый простой, но затратный способ — купить готовые генераторы.

Самые дешевые из более-менее приемлемых генераторов выглядят так

Чтобы генератор автоматически переключался под частотные сетки 44,1/48, придется все-таки взять в руки паяльник и распаять селектор U7 (74AUP2G157) указанный на схеме выше, — иначе генераторы надо будет переключать вручную. Например, для прослушивания CDDA, MP3 и DSD потребуется только генератор 45 158,4 кГц, но, если ты захочешь слушать «винилрипы» с частотой дискретизации 96 и 192 кГц, понадобится уже генератор 49 152 кГц.

После подключения генератора к BeagleBone black (контакт P9_25) останется только вывести два канала DSD (контакты P9_30, P9_41).

Номера контактов указаны для дистрибутива mini Botic7 (архив), собранного Павлом Погодиным. К контактам DSD1 и DSD2 нужно подключить фильтр, и устройство будет готово к работе.

Софт

Теперь поговорим о программной части. Начнем с драйвера.

Для BeagleBone black/green существует открытый драйвер, написанный участником форума diyaudio.com под ником Miero.

У драйвера немало настроек, все они описаны на сайте. Менять их можно в конфиге /boot/uEnv.txt. Например, можно задать вывод PCM и DSD на разные контакты, длину кадра LRCLK (актуально для мультибитов) или определенную частоту генератора тактовой частоты.

В нашем случае менять ничего не придется. Нужно только скачать прошивку для BeagleBone black (архив), в ней уже имеется этот драйвер. Скачанную прошивку записываем на карту microSD при помощи, например, программы dd в Linux или Rufus в Windows. Затем вставляем карту в разъем на микрокомпьютере, зажимаем кнопку рядом с этим разъемом и подключаем питание. Через несколько секунд кнопку можно отпускать. Плата должна начать загрузку, весело мигая светодиодами.

По умолчанию будет загружен профиль с клиентом для HQPlayer, именно он нам и нужен. Также прошивку можно скопировать во внутреннюю память BeagleBone black, инструкции есть на сайте Павла Погодина.

HQPlayer — лучший вариант для воспроизведения с конвертацией PCM в DSD, поскольку у него самый большой набор модуляторов и цифровых фильтров. Он поддерживает 11 сигма-дельта-модуляторов, 30 цифровых фильтров, oversampling до 98,304 мГц (DSD 2048), а также технологию CUDA.

Конечно, oversampling в DSD 2048 — это перебор, тем более в нашем случае: BeagleBone black и Amanero могут воспроизводить максимум DSD 512. Плюс далеко не все компьютеры потянут даже DSD 256 на «тяжелых» цифровых фильтрах со сложными модуляторами. Цифровые фильтры в HQPlayer очень качественные и требуют большой вычислительной мощности.

У этого плеера есть свои минусы. Во-первых, плеер платный, причем не из дешевых; во-вторых, он поддерживает крайне ограниченный набор форматов: CDDA, FLAC, DSDIFF, DSF, RIFF, AIFF — и, к сожалению, не поддерживает CUE. Впрочем, его не обязательно покупать. Плеер в пробной версии позволяет прослушивать музыку без ограничений в течение 30 минут, а после просто закрывается. И ничто не мешает открыть его заново и использовать еще много раз по полчаса, пока не надоест.

Все недостатки перевешивает его вариативность и отличный звук. Плеер позволяет добиться очень качественного звучания. Цифровой фильтр и модулятор — это основная часть сигма-дельта-ЦАП. Их различные варианты как раз и реализованы внутри этого плеера, что позволяет подобрать качество цифровой обработки в зависимости от быстродействия компьютера. При использовании с BeagleBone black или Amanero HQPlayer становится тонко настраиваемым сигма-дельта-цифроаналоговым преобразователем с огромными вычислительными ресурсами в виде твоего компьютера.

Для подключения к BeagleBone black в настройках HQPlayer нужно выбрать в выпадающем меню Backend пункт NetworkAudioAdapter. В выпадающем списке Device должен появиться Botic7: Botic при условии, что основной компьютер с HQPlayer и микрокомпьютер BeagleBone находятся в одной подсети и имеется DHCP-сервер. В параметре Default Output Mode выбираем SDM (DSD), параметр Bit rate (/limit) для начала лучше выставить 44,1k х64. В третьей и четвертой версиях плеера настройки выглядят по-разному.

Дальнейшие настройки ты сможешь подобрать эмпирическим путем, исходя из своего вкуса (слуха) и производительности компьютера.

Теперь к DSD-выходам BeagleBone black нужно подключить ФНЧ. Чтобы убрать шумы от питания и пульсации светодиодов, лучше всего использовать гальваническую развязку. Вот и все, устройство готово!