Всем привет! Спасибо, что заскочили на мой канал, посвященный аудиотехнике!
Если хотите принять участие в наших сходках аудиофилов или нужна бесплатная помощь в выборе аудиотехники, то можете написать мне: https://t.me/RA_Fayzullin
Чат в телеграм: https://t.me/WeirdMetalistChannel
Канал на ютуб: https://www.youtube.com/@Каналнеадекватногометалиста2.0
Дзен канал: https://dzen.ru/weirdmetalistchannel
Аудиотехника любимых российских мастеров: https://audio-tube.ru
Отдельно отмечаем, что мнение канала может не совпадать с мнением автора статьи. Статья не направлена на то, чтобы кого-то обидеть.
Источник: saanvi.ru
Итак, поехали!
Аналог vs Цифра: бой, которого не было
Целью данной статьи не является разжигание святой войны между поклонниками аналогового и цифрового аудио. Целью является показать принципиальные различия между двумя технологиями. Автор статьи (то есть я) занимает сторону цифровой технологии как наиболее совершенной и хочет разъяснить всем желающим свою точку зрения не только с субъективной, но и с научной стороны. Знание принципа цифровой записи звука, вкупе с пониманием научной стороны этого дела, однозначно исключает какие-либо сомнения в превосходстве цифровых технологий над аналоговыми.
Аналоговая запись звука
Звук (колебание частиц воздуха) имеет аналоговую природу. Звук распространяется в воздушном пространстве, он может искажаться в зависимости от разнообразных условий - расстояния до источника звука, отражения от окружающих предметов, скорости движения относительно источника и т.п. Диапазоном воспринимаемых человеческим ухом звуковых колебаний принято считать промежуток от 20 Гц до 20 кГц. На самом деле, 20 кГц - цифра довольно оптимистичная, мало кто может похвастаться тем, что реально слышит такую частоту. Большинство из встречавшихся мне взрослых людей не слышали частоты выше 15-16 кГц, так что я с большой долей уверенности в качестве среднего порога слышимости назвал бы частоту в 15 кГц. Впрочем, в плане тона нашим ухом воспринимаются частоты всего лишь до 5 кГц - всё, что выше, является дополнительными гармониками, обертонами, созвуками и т.п. Правильное воспроизведение высоких составляющих (граничная частота воспроизведения) в основном и является мерой качества записи звука, обычно указываемой в технических характеристиках любого сколько-нибудь серьёзного звукозаписывающего устройства.
В мире аналоговой записи звука, колебание воздуха сначала преобразуется в электрическое колебание посредством микрофона. Далее, электрическое колебание подаётся на звукозаписывающую магнитную головку (в случае магнитной ленты) или механический резец (в случае винила). В первом случае, информация записана на намагниченной ленте, во втором - в канавке пластинки. Для воспроизведения звука, достаточно протянуть магнитную ленту вдоль магнитной головки с той же скоростью, с которой производилась запись - головка преобразует переменное магнитное поле обратно в электрические колебания, которые усиливаются и подаются на звуковоспроизводящую систему (динамик). Звуковоспроизводящая система заставляет воздух колебаться, и мы слышим звук. В случае с пластинкой, достаточно прогнать иглу по канавке, которая преобразует механические колебания в электрические, а далее - снова усилитель с колонками.
С точки зрения здравого смысла из всего вышесказанного следует, что винил - это наихудший вариант для записи звука в принципе, потому что в процессе записи/воспроизведения присутствует грубая механика (как ни парадоксально, консерваторами почему-то принято отстаивать именно винил, а не магнитные ленты, хотя последние в пике своего развития имели значительно более высокие качественные характеристики). Кроме всего прочего, почти весь более-менее нормальный винил писался именно с магнитных лент. Ему просто неоткуда было записываться - мастеринг и сведение делались в ленте, поскольку на пластинке это в принципе невозможно. То есть, звук с винила - это звук с магнитной ленты, только дополненный собственными недостатками, винила - треском, шипением и прочими "меломанскими" безобразиями, обусловленными механическим съёмом звука с канавки пластинки - "плуг в борозде".
Фактически, аналоговая запись звука несовершенна почти на всех стадиях. Например, при записи на магнитную ленту, многое зависит от качества магнитной головки, архиважным является её калибровка относительно ленты (вечная головная боль). Добавьте сюда детонацию (непостоянство скорости ленты из-за неточностей в лентопротяжном механизме), саморастяжение ленты, изменения характеристик ленты на её протяжении, случайные выбоины/посторонние частицы на ней. Винил? Детонация, попадание в канавку мусора, деформация диска, ухудшение качества звука после каждого проигрывания из-за "раздалбывания" канавки. Но самым главным недостатком аналоговой записи является невозможность создания точной копии - любая копия с оригинала будет хуже качеством. Плюс ко всему, любой аналоговый носитель, даже будучи неиспользуемым, подвержен старению и постепенному ухудшению качества воспроизводимого с него звука.
Цифровая запись звука
Цифровая запись звука стала возможной благодаря огромному техническому прогрессу, произошедшему в последние десятилетия. В основе цифровой записи звука лежит довольно старая теория - просто стало возможным сделать из теории практику. Чтобы пояснить принцип цифровой записи, мне придётся поразглагольствовать несколько больше, поскольку в двух словах рассказать его невозможно.
Само название "цифровая запись" предполагает наличие цифр. Что за цифры? Выше я уже говорил, что звук имеет аналоговую природу. Чтобы записать звук в цифровую форму, нужно просто зафиксировать значения звукового колебания, изменяющегося во времени, в числах с как можно большей точностью. Далее, для иллюстрации принципа цифровой записи звука я воспользуюсь собственной разработкой - программой моделирования систем цифровой обработки сигналов sDCAD.
На рисунке зелёным цветом представлен аналоговый, непрерывный сигнал, желтым - его зафиксированные отсчёты (выборки). Выборка - значение сигнала в данный момент времени, записанное цифрой. Поскольку аналоговый сигнал непрерывно меняется во времени, сразу вырисовывается проблема: для точного воспроизведения сигнала необходимо бесконечное количество выборок - "одна за другой". Однако, здесь в силу вступает теорема Котельникова (тут вам придётся поверить мне на слово) - сигнал с известной максимальной частотой можно точно восстановить из цифровых выборок, сделанных с частотой вдвое большей максимальной частоты этого сигнала. В компакт-дисках (CD) частота выборки установлена "с запасом" - 44.1 кГц, таким образом, с компакт-диска можно с высокой точностью восстановить сигналы с частотами до 22.05 кГц, что перекрывает возможности самого чуткого уха с лихвой.
Процесс восстановления "промежуточных" значений сигнала между снятыми выборками называется интерполяцией. Интерполяция делается при воспроизведении звука, записанного в цифровой форме. Чем качественнее производится интерполяция, тем лучше восстанавливается сигнал. Обратимся к визуальной демонстрации восстановления сигнала из выборок.
На рисунке показан оригинальный сигнал и его зафиксированные выборки. Следующий рисунок показывает то, что получится, если "восстановить" сигнал без интерполяции, грубо "соединив" ближайшие выборки между собой прямыми линиями.
Как видим, результат немного похож на оригинал, но всё же весьма далёк от него. Конечно, "восстановленный" таким образом звук будет отличаться от оригинала и на слух. Что получится, если интерполировать выборки и "восстановить" сигнал с коэффициентом интерполяции 2 (т.е., добавить между уже имеющимися у нас выборками по одной "искусственной", восстановленной выборке)?
Теперь, между имеющимися у нас выборками добавлено по одной "восстановленной". Заметьте, насколько сигнал стал похож на оригинал! Конечно, до идеала ещё далеко - но ведь это всего лишь коэффициент интерполяции 2! Заостряю внимание: никакого волшебства нет - сигнал интерполируется строго по теории, математическими вычислениями, без какого-либо подвоха. Также, заметьте интересный факт: восстановленные выборки вовсе не являются средними значениями между двумя соседними оригинальными выборками.
Удвоим коэффициент интерполяции (4). Качество восстановления сигнала растёт небывалыми темпами.
Если ещё удвоить коэффициент (8), восстановленный сигнал на вид практически не отличается от оригинального. Думаю, продолжать интерполировать далее не имеет смысла - вы и так уже всё поняли.
Теперь подхожу к ещё одной проблеме цифровой записи. На самом деле, мало просто сделать выборки сигнала на нужной частоте. Надо ещё и записать их значение максимально точно. Точность при записи называется разрядностью. Чем выше разрядность - тем точнее можно записать выборки сигнала. Нагляднее всего это демонстрируют два следующих рисунка.
На рисунке представлен всё тот же сигнал, что и на предыдущих - только оцифрованный с разрядностью 2 бита. Несмотря на то, что интерполяция производилась с коэффициентом 16, восстановленный сигнал вовсе непохож на оригинал. Он и не может быть похожим на него - разрядность в 2 бита является очень низкой и непригодной для записи звукового колебания.
Всё тот же сигнал, оцифрованный в 16 бит (именно такое качество у CD) и восстановленный с коэффициентом интерполяции 16. Практически неотличим от оригинала. Отличия будут незаметны на слух. В студийной практике чаще используются более высокие разрядности и частоты выборок - например, 24бит/48кГц, 24бит/96кГц и т.д. Это связано с тем, что на студиях звук подвергается дальнейшей кропотливой обработке и его лучше иметь в максимально доступном цифровом качестве. В финальном результате - например, на CD - качества 16бит/44.1кГц для отличного воспроизведения хватает с лихвой.
Добавим сюда тот факт, что цифровая запись не стареет и не может испортиться в принципе. Это - слепок звука, который сам по себе никаким временным изменениям не подвержен. Также, с этого слепка можно наделать сколь угодное количество копий - и все они будут в точности одинаковы. А при достаточной точности слепка, его ещё можно и обрабатывать практически неограниченное количество раз.
Подведу черту: все предыдущие изыскания, увещевания и рисунки сводятся к одной мысли - цифровая звукозапись в теории является идеальной. С её помощью можно записать любой звук, который только может услышать человеческое ухо. А затем можно максимально точно воспроизвести этот звук - с такой точностью, которая и не снилась аналоговым носителям по причине очевидного несовершенства последних.
Цифра. MP3
Появившись ещё в середине 1990-х, формат MP3 быстро занял лидирующие позиции и, похоже, до сих пор не собирается их сдавать. Мало кто из пользователей компьютеров и разнообразных устройств для воспроизведения звука хорошо представляет себе, что такое MP3 "изнутри". Попробуем разобраться.
Что такое MP3?
MP3 - формат сжатия звука с потерями. Разработан в Германии институтом Фраунгофера в 1994-м году. Если быть точнее - в 1994-м появился первый кодировщик L3Enc. Самый популярный формат сжатия звука на момент написания статьи (обновление: и семью годами позже, в 2017-м :).
Из чего состоит MP3?
Технически MP3 называется MPEG-1 Audio Layer 3 и состоит из нескольких подформатов. Каждый подформат рассчитан на свою частоту дискретизации и битрейт. Ранее было принято считать, что MP3, закодированный на битрейте 128кбит, практически неотличим от AudioCD (это, безусловно, не так). Сегодня таковым "порогом" считается 192кбит (речь идёт о среднестатистическом слушателе). Если "подняться" до 256кбит, слепые тесты уже проваливают профессиональные эксперты несмотря на то, что опыты проводятся на качественном оборудовании и в соответствующих помещениях. 320кбит считается полностью неотличимым от оригинала на слух (напомню, речь идёт о формате AudioCD - т.е., 16бит 44.1кГц). Как человек, долго работающий с музыкой, я эту информацию могу лишь дополнительно подтвердить собственным (более чем двадцатилетним) опытом работы с MP3.
Принципы кодирования MP3
Довольно сложно объяснить все принципы кодирования формата, я попытаюсь сделать это "на пальцах". Кодек берёт звуковой материал и, основываясь на выходных данных (в основном, на битрейте) начинает его сжимать. Сначала производится фильтрация высоких частот (для 128кбит это может быть диапазон, начиная от 14-15кГц, для 256кбит - 19-20кГц и т.д.). После того, как часть по факту неслышимой информации убрана из файла, кодек строит т.н. "психоакустическую модель", на основании которой убирает из звука неслышимые составляющие. Затем информация "ужимается" в нужный битрейт. Понятное дело, чем ниже битрейт - тем более слышимы "неслышимые" составляющие, как бы абсурдно это ни звучало.
Фактически, качество звучания выходного файла зависит не только от выбранного битрейта, но и от программы-кодека. Существуют десятки кодеков, наиболее заметный по популярности и качеству - LAME, очень хорош и сам оригинальный от Фраунгофера. В случае использования других кодеков есть вероятность нарваться на не очень качественный результат кодирования, поскольку какого-либо стандарта нет - есть только описание принципов и рекомендации. Поэтому, каждая программа кодирует звук по-своему.
С проигрывателем всё проще - надо лишь развернуть готовый поток согласно информации, закодированной в нём. Тем не менее, при декодировании тоже могут возникать неприятные нюансы. К примеру, некогда популярнейший проигрыватель Winamp в большинстве своих начальных версий имел очень низкое качество звука - видимо, из-за чрезмерно усердной "оптимизации" кода под не слишком резвые компьютеры эпохи конца 1990-х.
MP3 с битрейтом 128кбит, как правило, без проблем отличим от оригинала на хорошей аппаратуре. Будет слышно и урезание высоких частот, и некоторые "булькающие" призвуки на ВЧ при насыщенном звуке. С повышением битрейта, качество кодирования растёт катастрофически: уже к 160кбит результат на слух более чем удовлетворяющий, не говоря уж о 192кбит. Естественно, при хорошем кодеке и правильно настроенных параметрах кодирования.
Есть, конечно, и другие способы применения MP3 - например, кодирование для передачи в реальном времени через интернет. Здесь качество не играет особенной роли - важен размер получаемого файла.
Режимы кодирования
У MP3 на данный момент три режима кодирования, отличающиеся качеством материала на выходе.
CBR (constant bitrate, постоянный битрейт)
Изначально использующийся режим, постоянный битрейт на всём протяжении файла. Из достоинств имеет разве что точно прогнозируемый объём выходного файла.
VBR (variable bitrate, переменный битрейт)
Появившийся позднее и с успехом развившийся режим. Суть состоит в том, что звуковой материал изначально имеет разную насыщенность на разных участках времени. Исходя из этого, можно варьировать битрейт, сохраняя при этом одинаковое качество. Например, зачем кодировать тишину на битрейте 128кбит, если для этого можно использовать минимальные 32кбита (для 44.1кГц)? Недостатком такого режима является невозможность прогнозирования объёма выходного файла. Впрочем, вряд ли можно назвать это существенным недостатком на фоне очевидных достоинств.
ABR (average bitrate, средний битрейт)
ABR является "соединением" CBR и VBR. Имеется возможность задать некий "средний" битрейт, а кодек будет использовать переменный битрейт, чтобы "вписаться" в заданные рамки. Результат кодирования в режиме ABR будет несколько лучше, чем у CBR, однако музыкальный материал будет закодирован с разным качеством на разных участках. Тем не менее, как и в случае с CBR, будет легко прогнозировать объём файла.
Режимы управления кодированием
Stereo (стерео)
Двухканальное кодирование. Каналы стереосигнала кодируются независимо друг от друга, но распределение бит под результат может варьироваться в зависимости от насыщенности в каждом канале. Режим используется в основном на битрейтах от 256кбит.
Dual channel (двухканальный)
Кодирование каналов независимо друг от друга, с выделением постоянного битрейта под каждый канал. Например, если выбран битрейт 256кбит, то под каждый канал определяется строго 128кбит. Режим практически не используется, а в популярном кодеке LAME даже и не поддерживается.
Joint stereo (объединённое стерео)
Часто используемый режим для кодирования на средних и низких битрейтах (меньше 256кбит). Состоит из нескольких подрежимов. В основном базируется на том, что на обоих каналах очень много одинаковой информации (то есть, каналы типичного музыкального файла отличаются друг от друга не на 100%). При этом, одинаковую информацию можно закодировать с битрейтом повыше, а разность между каналами, которая обычно невелика, ужать получше. Из сказанного вытекает очевидный недостаток режима: если каналы всё же полностью отличаются друг от друга, никакого выигрыша в качестве по сравнению с тем же стереорежимом не получится. Однако, в большинстве случаев joint stereo позволяет получить лучшее звучание на низких битрейтах.
Mono (моно)
Используется для кодирования моносигналов.
MP3 vs AudioCD, или "не зная броду - не суйся в воду"
Как-то на вечеринке поспорили с одним товарищем. Мол, он отличает MP3 от AudioCD ну просто влёт, сразу и начисто. Меня это раззадорило, и я решил вывести "аудиофила" на чистую воду.
Я с MP3 работаю почти с того времени, как он появился - года с 1996-го. Тогда винчестер в 2Гб был невиданной роскошью, а пишущий CD - и того более; посему, идея сжатия звука интересовала меня чуть менее, чем полностью, т.к. где-то надо было хранить свои бесценные произведения.
Сначала я сам не поверил, что звук можно так сильно и так качественно сжать. Я сжимал и слушал, сжимал и слушал. Совершенно очевидно, 256kbit для обычного AudioCD было просто за глаза. Вполне комфортный для прослушивания битрейт был вплоть до 160kbit, и только ниже проявлялись достаточные искажения, чтобы однозначно их идентифицировать - и то намётанным ухом, когда знаешь, где и что слушать. Затем я почитал технические спецификации, понял, что тут и там используется дискретное преобразование DCT (тесно связанное с Фурье) - и успокоился, поскольку всю эту теорию мне преподавали в институте и ничего сверхъестественного и страшного в ней нет. Конечно, MP3 - это ещё и психоакустика; в ней я на тот момент разбирался не очень, да и сейчас не очень разбираюсь. Но, доверяя своим ушам, я начал постепенно привыкать к MP3.
В течение десяти лет я прислушивался к трекам собственного производства, которые для пущей важности кодил даже в 320kbit с максимально высоким качеством у кодека (естественно, LAME или оригинальный фраунгоферский, а не какой-нибудь там Xing, BladeEnc или ещё какое поделие). И ничерта не слышал никакой разницы (естественно, с правильными проигрывателями типа fobar2000, а не косячными вроде WinAMP). И что, этот товарищ сможет расслышать то, чего за десять лет не расслышал я? Не занимаясь при этом музыкой? Мы поспорили на штуку рублей - по тем временам сумма не запредельная, но и не маленькая. В "рефери" взяли его знакомого, который следил, что я включаю при слепом тесте.
"Испытуемый" припёр мега-лицензионный CD Queen с (кто бы мог подумать?) композицией "The Show must go on". Я аккуратно сграбил трек через EAC (проблемы чтения с AudioCD к тому времени были устранены на всех драйвах, даже самых "нонеймовских"). Затем, закодировал в 320kbit stereo через LAME, а потом декодировал через него же, получив стандартный 16bit/44.1kHz WAV. Для пущей убедительности показал в SoundForge, что спектры изначального и декодированного файла различаются (у MP3 сразу заметна фильтрация ВЧ, для 320kbit это примерно в районе 20kHz, которые никому не слышны). Назвал файлы WAV.wav и MP3.wav - чтобы "рефери" мог понимать, что я включаю. В качестве выходной системы использовали мой сет от M-Audio: звуковуха Audiophile 24/96 и студийные мониторы Studiophile BX5. Сам товарищ утверждал, что слышит разницу через свой музыкальный центр (а-ля "Tampaxonic"), а также через автомагнитолу "Paioneeeyear" с бумажными динамиками, установленными где-то в преисподней. Правда, какую "разницу" он слышит - не утверждал. Просто: слышит - и всё.
В ходе теста я не стал особо мудрствовать и пять раз включал попеременке WAV-MP3. Т.е., всего десять раз. В конце теста товарищ спросил у "рефери": "Он правда включал разные треки?". Рефери ответил утвердительно. Товарищ вытащил косарь и передал мне. Кто бы сомневался: он не услышал разницы нигде.
Затем товарищ вытащил свою флэшку, которую он слушает в машине, и попросил посмотреть, "что с ней не так, ведь звук - явная лажа в сравнении с AudioCD". На флэшке обнаружился обычный шлак, накачанный и скопированный с каких-нибудь "зайцоф.есть", со средним битрейтом в районе 96-192kbit. Попадавшиеся 256-320kbit звучали почему-то тоже, как из милицейской радиостанции - для меня это было неудивительно, т.к. я встречал "знатоков", перекодирующих MP3 из 128kbit в 320kbit и при этом полагающих, что "качество повысится". Это реально бывает такое! Практически все треки были зачем-то динамически ужаты (видимо, для большей громкости - это ж "куль и руль", когда громко). Минимум треть "материала" имела щедро рассыпанные щелчки - явные косяки аудиограбберов, или просто физические на AudioCD. В общем - традиционный "треск, шипение и пердёж".
Товарищ слушал всё это жёваное дерьмо и гордо бегал с флагом "MP3 - лажа!". Пока не наткнулся на меня... Но и это не конец истории. Я предложил товарищу ещё один такой же тест, но со скрытыми параметрами MP3. То есть, я не говорил, каким битрейтом буду кодировать. Он согласился - правда, уже без всяких пари, но мне было интересно подтвердить свою теорию и практику. В ходе теста он опять ничего не услышал. Суть состояла в том, что я представил ему 128kbit joint stereo; правда, закодированное с -q 0 (высшее качество у кодека LAME). Мой расчёт был на то, что неподготовленное, деревянное ухо не услышит разницы, которую слышит подготовленное ухо типа моего. Расчёт полностью оправдался. Для того, чтобы слышать разницу - нужно ещё понимать, где её слушать. Такие дела.
В общем, если какой-то человек говорит вам что-то про "MP3 супротив AudioCD есть плохо" - дайте ему сначала по голове, а потом покажите эту историю. Или сначала покажите историю, а потом дайте по голове. Но лучше просто дайте по голове, а историю можете и не показывать.
Пожалуй, единственным серьёзным недостатком MP3 является то, что технически стандарт ограничен двумя каналами. Для меня это, впрочем, не является недостатком, поскольку я не работаю более чем с двумя каналами одновременно. В 2010-м году исчез и второй крупный недостаток: патент.
У MP3 немного реальных конкурентов, наиболее заметные из них - AAC и Ogg Vorbis. AAC защищён патентом, в то время как Ogg Vorbis - свободно реализуемый проект. По сути, из преимуществ у этих кодеков - разве что возможность сохранять более двух каналов в потоке и улучшенное качество звука на низких битрейтах (на высоких различия стираются). По популярности этим кодекам далеко до MP3, да и меломаны всё чаще смотрят в сторону форматов сжатия без потерь (навроде FLAC), поскольку устройства хранения данных эволюционируют гигантскими темпами и уже можно позволить себе хранить аудио в сжатом без потерь варианте. MP3 же остаётся "проверенной рабочей лошадкой" для бытового применения и обеспечивает отличное качество звучания, если использовать нормальный кодек с правильными настройками сжатия.
Где же подвох?
Теория цифровой записи - как вы, вероятно, уже убедились - свободна от изъянов. Что же происходит на практике?
Во-первых, звук надо грамотно оцифровать - а это задача не совсем тривиальная, хотя упирается она в основном в одну-единственную деталь - АЦП (аналого-цифровой преобразователь). Допустим, мы взяли суперкачественный микрофон, обеспечили нормальное прохождение электрического сигнала через все аналоговые цепи (провода, микшер и т.п.). Некачественный АЦП, стоящий на входе цифрового записывающего устройства, враз испортит все старания. Он может записывать отсчёты с недостаточной точностью. Он может делать выборки с неравномерной частотой. В общем - если АЦП на записи был плох - записанный звук получается далёким от оригинала, и мы уже ничего не сможем с ним сделать (хотя отсчёты по-прежнему будут цифровые - исправить их не представится никаким образом).
Во-вторых, цифровой звук надо грамотно воспроизвести. Ситуация с точностью до наоборот: имеем прекрасную акустическую систему, замечательный усилитель, отличные провода. Но если мы подключим всё это к выходу некачественного ЦАПа (цифро-аналоговый преобразователь) - получим соответствующий некачественный звук. У ЦАП обычно больше способов испортить звук: это и неравномерная частота, и недостаточная точность, и, возможно, полное отсутствие интерполяционной схемы как таковой! Автору доводилось видеть "супербюджетные" звуковые карты для компьютеров, на которых никакой интерполяции не производилось вовсе, а разрядность выводимого сигнала на вид не доходила и до 5 бит.
Что всё вышесказанное означает? Да то, что качество цифровой записи/воспроизведения зависит только и только от аппаратуры - ровным счётом так же, как и в случае с аналоговыми технологиями. И если на звукозаписывающих студиях уж явно постарались, приобрели себе хорошую электронику и не имеют проблем с цифровым звуком - у вас эти проблемы вполне могут появиться, поскольку бытовые проигрыватели цифровой музыки зачастую производят ужасный звук. Здесь раскрывается один момент: во времена винила и магнитной ленты сама звуковоспроизводящая аппаратура делалась куда более качественно - автор и сам помнит те времена. В наш же век, век удешевления всего, чего только можно и переноса производства сами знаете куда, ожидать замечательного качества от подавляющего количества среднебюджетной аппаратуры не приходится. Возможно, с этим и связано большинство негатива в сторону цифровой музыки, т.к. люди не слышат тот звук, который они слышали когда-то. Но зачем винить в этом цифровую запись? Эта тема уже для другого разговора.
Иногда приходится видеть забавные "обзоры", где люди сравнивают одинаковые альбомы каких-либо исполнителей - сначала в виниле, потом - в CD. Это смешит: во-первых, переизданная на CD запись будет, конечно же, иметь другой звук, поскольку её ремастерили специально для CD. Причём, разумеется, ремастеринг делается уж явно для улучшения звука, а не для его ухудшения. Думается, на студиях, переиздающих классические коллекционные издания хитовой музыки прошлых десятилетий, сидят не профаны. Во-вторых, тот же винил не в состоянии правильно передать некоторое количество высоких частот из-за очевидной инерционности иглы - звук с винила всегда характеризуется завалом по ВЧ - он будет более мягким и глуховатым, но кто сказал, что всем нравится эдакая ретро-мягкость?
В голову также приходит другая забавная аналогия. Почему-то, никто не отстаивает видеоформат VHS, говоря, что на DVD худшая картинка. Оно и понятно - здесь всё видно невооружённым глазом. В случае же со звуком, когда каждый спешит убедить окружающих в своём исключительном слухе, всё сложнее и плацдарм для разнообразного рода спекуляций шире. Отсюда многочисленные бредовые высказывания, ничего общего со здравым смыслом и наукой не имеющие. Например, высказывание о том, что "особенно на цифровой записи пропадают басы". Почему именно басы - совершенно непонятно. Равно как и непонятно, откуда такие профанские мнения постоянно берутся.
Таким образом, с точки зрения науки, цифровая запись звука в сравнении с аналоговой имеет сплошные преимущества и не имеет недостатков. С точки зрения реалий - чтобы услышать по-настоящему качественный цифровой звук - надо выложить кучу денег, да и не всегда даже за кучу будет хороший результат. Впрочем, в случае с аналоговой записью - ровным счётом всё то же самое.
А напоследок - маленькая сенсация: звук с магнитных лент на самом деле... Цифровой. Связано это с тем, что фактически в зазор магнитной головки в каждый конкретный момент времени попадает конечное количество магнитных частиц ленты. Следовательно, значение сигнала уже записано не с полной, а с ограниченной точностью. "Интерполятором" в таком случае выступает сама магнитная головка, т.к. в ней магнитное поле не может меняться абсолютно мгновенно. Где-то читал (не буду ручаться за достоверность), что примерная разрядность магнитной ленты - 18 бит. Впрочем, не стоит путать эту "разрядность" с цифровой - всё же, это всего лишь приближение, граничащее с шуткой.
А что же винил?
А винил записан с магнитной ленты.
Тёплый ламповый звук и сферический винил в вакууме
Далее я буду в больших количествах употреблять слово "аудиофил". Замечу, что данное слово употребляется в основном как диагноз - не исключением будет и эта статья. Человека, который ценит качественный звук и разбирается в нём, обычно принято называть меломаном. А вот аудиофилия - это пристрастие к якобы "качественному" звуку, основанное на мифах, легендах и, как правило, отсутствии личного опыта и знаний.
Что такое "качественный звук"?
Самое смешное во всей истории споров о различных технологиях звуковоспроизведения - то, что точного определения "качественный звук" попросту не существует.
Начнём с того, что один и тот же звук может быть качественным для одного индивида и совершенно некачественным для другого. Например, кто-то больше любит басы и страдает от их недостатка. А кому-то, напротив, нравятся "крепкие" высокие - и если они "мягковаты", то возникает дискомфорт при прислушивании. Что ещё более интересно, эти пристрастия к тем или иным диапазонам могут со временем меняться даже у одного и того же человека. Всё происходит оттого, что человеческое ухо - довольно субъективный инструмент восприятия звука. Ухо может "подстраиваться" под звук, нехило обманывая тем самым своего владельца (тут сразу вспоминаются кабели червонного золота, изготовленные по последнему слову нанотехнологий).
"Слуховые тесты", которыми бредят аудиофилы, по сути подвержены диким погрешностям и вообще не могут серьёзно рассматриваться как достоверные доказательства "плохости" или "хорошести" звука. Невозможно дважды войти в одну и ту же воду - равнозначно невозможно услышать один и тот же звук, даже из одной и той же колонки.
Далее, любая звуковоспроизводящая система априори будет искажённо передавать первоначальный звук. Звук был искажён ещё на записи, затем при обработке, а потом - в трактах усиления и акустической системе. Он никак не может быть стопроцентно соответствующим первоначальному по той простой причине, что идеальной технологии записи/воспроизведения не существует (и вряд ли когда-либо она появится). Более того: звук после записи искажают намеренно, для получения того или иного эффекта. Количество обработок, через которые проходит звук на современных студиях звукозаписи, исчисляется десятками. В результате всё получается красиво - точно так же, как на картинке голливудского фильма, которая далёка от реальности на 99%. Но тем не менее, звучит всё весьма хорошо (если, конечно, звукорежиссёр не был профаном). Поэтому, следует зарубить себе на носу: звук в конечном треке является очищенным, рафинированным. Причём рафинированным не с целью ухудшить его, а наоборот.
Как правило, нужная звуковоспроизводящая система подбирается очень просто: по звуку. Вы включаете систему и слышите звук, который вам либо нравится, либо нет. Выискивать "прозрачность", "теплоту", "объёмность" - чистой воды аудиофилия, ни к чему хорошему в данном случае не приводящая. Звук системы либо нравится, либо нет - всё просто. И что интересно, с увеличением стоимости системы звук обычно улучшается. Странно это, или нет? Мне кажется - не очень.
Конечно, люди с повышенными требованиями к звуку выбирают систему более детально. У меня, например, на этот случай есть с собой несколько треков - пара-тройка прослушиваний - и всё становится ясно. Идеальной АЧХ нет ни у одного усилителя - значит, надо выбрать тот, который наиболее приятно звучит (в конечном счёте, всё сводится к тому, насколько акустическая система хорошо воспроизводит те или иные частоты, необходимые индивиду для комфортного прослушивания). Причём, усилитель с идеальной АЧХ в субъективном тесте скорее всего проиграет усилителю, который воспроизводит определённые частоты с бОльшим усилением (или, наоборот, подавляет их) - как говорится, кому что.
Сегодня в мире аудио господствуют цифровые технологии. Специалиста в данной области это удивлять никак не может: цифра является отличным способом сохранить и воспроизвести звук. Способом значительно более совершенным, нежели способы, существовавшие до него. Тем не менее, как это случается со всеми относительно новыми технологиями (хотя цифра "новой" уже не является), цифровые технологии до сих пор подвергаются не особенно заслуженной критике. "Критики", в основном, разделяются на два лагеря: люди, подкованные в теории - и, соответственно, неподкованные и не имеющие вообще никакого опыта. Первые (видимо, в силу патологического консерватизма и личных пристрастий) изобретают мифы, способные воздействовать на вторых. Вторые с удовольствием эти мифы распространяют и спорят до упаду в конференциях, не понимая сути предмета как такового. При всём при этом, никак не изменяя того факта, что кругом всё оцифровано и в аналог обратно переводиться уже не будет.
В общем-то, я не являюсь ярым защитником цифровых технологий записи/воспроизведения звука (на данный момент, это и не требуется). Мне приходилось слышать и аналог, и цифру. Звучат они, естественно, по-разному. Но кто сказал, что аналог звучит лучше? Это совершенно недоказуемо. Главное достоинство цифры - тиражируемость и вечность, огромные возможности пост-обработки. И звучит цифра, уж простите меня аудиофилы, ничем не хуже аналога. Точнее, она звучит лучше.
В предыдущей статье я не осветил кое-каких "заветных" тем, с которыми типичные аудиофилы пытаются "разгромить" цифру. Темы, в общем, избитые и высосанные из пальца. Постараюсь разобрать их здесь поподробнее и надеюсь на то, что мне удастся устроить максимально понятный ликбез.
Динамический диапазон
"Динамический диапазон!!!" - первый крик, с которым аудиофил бросается на амбразуру споров. Абсолютно все аудиофилы, с которыми я, бывало, разговаривал на тему звука, называли эти два слова. И абсолютно все они толком не знали истинного значения этих слов и реальной картины дела.
Грубо говоря, динамический диапазон - разница между самым тихим и самым громким звуком. В общем случае, чем она больше - тем лучше: ведь это значит, что система может записать одинаково качественно и очень громкий звук, и крайне тихий. Динамический диапазон, рассчитанный для CD "по математике" - порядка 96 дБ. Динамический диапазон у лучших аналоговых носителей (без шумопонижения) - 50-60 дБ. Итого, вроде бы как получается 30-40 дБ выигрыша у цифры (что крайне много), но всё не так просто. Дело в том, что ниже диапазона 50-55 дБ у CD возрастает коэффициент нелинейных искажений. То есть, у аналога динамический диапазон ограничен шумами, в которых теряется звук. А у цифры (в её CD-шном варианте) - допустимыми искажениями. Получается, что динамический диапазон в обоих случаях примерно одинаков (причём цифра не проигрывает, даже на этом этапе рассуждения). Однако, есть несколько нюансов.
Первый нюанс. Что лучше: когда звук скрывается в шумах совсем, или когда он через шумы всё-таки прослушивается? Однако, пусть лучше звук будет, чем его не будет.
Второй нюанс. Звук на уровне -50 дБ почти не слышен. Неверящие могут попробовать нормализовать любой звуковой файл до -50 дБ в каком-нибудь редакторе и послушать (естественно, не надо при этом выкручивать громкость на максимум - пусть она остаётся на обычном уровне). То есть, где-то там, за диапазоном в -50 дБ, у CD происходят искажения. Только услышать их путём не представляется возможности - вот в чём загвоздка, музыку на таком уровне просто никто не записывает - в этом диапазоне громкостей можно услышать разве что послезвучие в конце трека. Ну а у аналогового носителя там просто шум, и всё.
Третий нюанс. Аудионаука давно уже знает о нелинейных искажениях на малых уровнях сигнала в CD (шум квантования). И давно уже есть технология, позволяющая эти искажения замаскировать (dither). Сия технология применяется в процессе создания AudioCD. Фактически, dither незаметен (из-за того, что воздействует на малые уровни, которые и так не слышно). Но можно сделать забавный опыт: dither на 8-битовом файле! Искажения при этом практически сойдут на нет (правда, за счёт увеличения шума), несмотря на низкое битовое разрешение. Таким образом, искажения в фактически неслышимом диапазоне уровней можно ещё и качественно замаскировать!
И последний, четвёртый нюанс: все эти "страшные ограничения" динамического диапазона применимы только к CD. На студиях давно уже делают запись и обработку с битовым разрешением минимум в 18 бит (чаще - 24 бита). 24 бита предлагают динамический диапазон более 140 дБ, оставляя все аналоговые технологии далеко позади. Сейчас сложно сказать, какой формат устойчиво придёт на смену AudioCD, но можно точно сказать - он не будет разрешением в 16 бит. Впрочем, пока большинство устраивает даже AudioCD - исходя из вышесказанного, ничего странного в этом я не вижу.
Таким образом, сказки об ограниченном динамическом диапазоне у цифры - не более, чем сказки. Которые, во-первых, привязаны к конкретному формату AudioCD, а во-вторых - даже у AudioCD с диапазоном всё в порядке.
В комментариях разразился спор по поводу ДД у CD, так что дам дополнительные пояснения здесь. Дело в том, что цифровые технологии настолько совершенны, что практический (именно досягаемый) динамический диапазон у CD (16 бит) - порядка 120 дБ! Применяя dither и noise shaping, имея в распоряжении оригинальный звуковой файл 24 бит, можно сделать 16-битовый файл, где будут прослушиваться уровни сигнала -100 дБ и ниже. Расплатой за это будет шум, который сделает запись на таком уровне не то, что некачественной, а просто непригодной для прослушивания. Но факт есть факт: динамический диапазон у CD с использованием ухищрений просто огромен. Другое дело, что он такой никому особенно и не нужен. Во-первых, звуки на уровнях менее -50 дБ в записях практически не встречаются (исключая разве что "затухание" у треков или сравнительно редкие классические произведения), потому что это очень "тихая" зона. Ну а во-вторых, шум, появляющийся от dither-shaping, тоже не подарок. Всё, что нужно знать неискушённому читателю: динамический диапазон у CD превосходит любой аналоговый носитель звука, выпущенный в "доцифровую" эру.
Джиттер
Джиттер (jitter) - нестабильность частоты дискретизации. Может возникать как при записи, так и при воспроизведении. Пугать окружающих страшным словом "джиттер" аудиофилы привыкли давно. На деле, всё просто. Джиттер возникает в некачественных АЦП/ЦАП - т.е., в дешёвых, бытовых и непрофессиональных. А в дорогих - профессиональных и высококачественных - джиттер отсутствует. Вот, собственно, и всё.
Чаще всего джиттер встречается в дешёвых звуковых картах для компьютеров. Звуковая карта должна воспроизводить звук с совершенно разными частотами дискретизации (типично - от 8 до 48 кГц). Естественно, никто не будет вставлять в неё с десяток стабильных генераторов для разных частот. Сделают один генератор, а все нужные частоты получат с помощью синтезатора частот, который будет пропускать часть импульсов и таким образом генерировать нестабильную частоту дискретизации (производя джиттер).
Называть джиттер "одной из проблем" цифрового звука - всё равно, что называть кассету "МК-60" проблемой аналогового. Если вы знаете, о чём я. ;)
Уровень записи
Частенько приходится слышать, что из-за "проблем с цифровыми перегрузками" звукорежиссёры "занижают уровень записи" до запаса аж в 12-16 дБ. Что, естественно, приводит к возрастанию ошибок квантования, соответствующему искажению сигнала, а также уменьшению динамического диапазона. Хватает всего пары нюансов, чтобы разгромить и этот миф.
Во-первых, ныне никто в 16 бит не пишет (а именно для такого битового разрешения и будет проблемой занижение уровня записи). То есть, проблема, возможно, существовала в 90-х годах у людей, пытавшихся записать что-то на звуковую карту класса SB16.
Во-вторых, даже когда я делал запись в 16 бит, то никогда не оставлял такого громадного запаса и не занижал уровень до такого мизера. Просто потому, что это незачем делать: надо отрегулировать уровень записи до -3 -4 дБ и записывать в своё удовольствие. Кроме того, когда я работал с 16-ю битами, то занимался потрековой записью: каждому инструменту - свой трек (это обычная схема). При такой схеме, даже на 16 бит всё получается вкусно: каждый инструмент записан с большим динамическим диапазоном (поскольку инструменту "никто не мешает"). В финальном миксе, инструменты смешивались и реальный динамический диапазон оказывался больше, чем можно было достигнуть при записи "всё в куче".
Этот ваш Котельников - только теория
Частенько приходится читать рассуждения о том, что практическое применение теоремы Котельникова, на основе которой делается запись и воспроизведение цифрового звука, сталкивается с очевидными проблемами - что, якобы, делает цифровой звук "не выдерживающим никакой критики". Проблемы действительно имеют место быть: что запись, что воспроизведение цифры сталкиваются с подводными камешками. Вопрос только в том, что камешки эти размером с пылинку, если учесть конечную разрешающую способность человеческого уха, которое просто не в состоянии эти камешки вычислить. Да и описание "проблем", как всегда, зиждется на голом формате AudioCD - как будто других не существует. Дело, как правило, осложняется ещё и тем, что аудиофилы представляют свои обличающие "слуховые тесты", полученные с mp3-плейера "JingHuang" в колонки Genius.
При записи звука в основном возникает проблема ограничения входного спектра сигнала. Если этого не сделать, то частоты, находящиеся выше граничной (22.05 кГц для AudioCD) "переползут" при оцифровывании "вниз", создавая низкочастотные искажения (aliasing). Фильтрация сигнала - процесс нетривиальный и, в целом, полностью отфильтровать весь ВЧ спектр выше нужной частоты без значительных искажений полезных частот всё равно не получится. Однако, проблема легко решается использованием более высоких частот дискретизации (oversampling) - что при записи, что при обработке. Например, 88.2 кГц вместо традиционной 44.1 кГц (на студиях вряд ли кто-то в здравом уме ещё пишет в 44.1). При частоте выборки 88.2 кГц граничная частота входного сигнала - 44.1 кГц, что позволяет конструировать фильтры низких частот более "расслабленно", учитывая то, что нужным диапазоном в конечном счёте является диапазон частот до ~20 кГц.
При воспроизведении цифрового звука возникают проблемы с интерполяцией: надо максимально точно восстановить исходный сигнал. Опять же, задача зачастую решается программным повышением частоты выборки (upsampling). Здесь аудиофилы радостно возопят о том, что для программной интерполяции нужны великие миллиарды операций и что ни один компьютер на такое не способен. В идеале - да, но на деле - можно применить весьма упрощённые формулы, достаточные для восстановления сигнала с таким качеством, которое аналоговым носителям и не снилось. Пример с графиками для этого дела приведён в предыдущей статье, где показано, насколько точно восстанавливается сигнал даже для формата AudioCD (коий традиционно принято пинать аудиофильскими ногами). Уточню также, что те графики я не стянул откуда-то из интернета, а построил их сам - с помощью своей же программы для моделирования систем цифровой обработки сигналов sDCAD. Суперкомпьютер с миллиардами операций для этого, по счастью, не потребовался.
Плоский звук
От аудиофилов часто приходится слышать термин "плоский звук" применительно к цифре. Термин может варьироваться: "пластиковый", "искусственный", "неживой" и тому подобное. Чем же конкретно аналоговый звук отличается от цифрового?
Во-первых, аналог характеризуется мягкостью (завалом) воспроизведения высоких частот. Мягкость возникает из-за банальных недостатков аналоговых технологий. В случае с винилом это инерционность иглы. В случае с магнитными лентами - постепенное размагничивание (возникающее сразу после записи). Короче говоря - аналог звучит мягко и деликатно (тем не менее, мягкость обязана "сжёвыванию" ВЧ).
Иное дело цифра: что записал - то и получил. Если тракт звуковоспроизведения качественный - мы слышим то, что было записано - и ничего не теряется. Некоторые цифровые треки звучат очень жёстко потому, что их так записали - ничего удивительного здесь нет, мягкость нравится не каждому звукорежиссёру. Особенно учитывая направления в современной музыке, где принято искажать всё, что только возможно, включая голос вокалиста. Но дело в том, что цифра способна воспроизводить и мягкий звук - надо лишь соответствующим образом его записать.
Слушатели "старой закалки" привыкли слышать с винила или ленты сочный "ухающий" бас, который появляется благодаря естественному завалу ВЧ и сопутствующим выделением на этом фоне НЧ. С появлением цифровых технологий звукорежиссёры получили возможность качественно оперировать всем спектром, в результате чего записи стали более насыщенными в высокочастотном плане. И они действительно звучат привлекательнее старых - если откинуть предрассудки. Впрочем, для получения мощного "ухающего" баса достаточно сделать простую операцию: прибавить низких. Если, конечно, ваш музыкальный центр вообще оборудован эквалайзером...
В общем, появление цифровых технологий записи звука изменило и сам звук, который мы слышим с треков. Есть ли в этом что-либо удивительное? Не думаю. Плох ли цифровой звук? Нет, цифровой звук - хорош. При грамотном применении - как и со всем остальным.
Будет также правильным в окончании всех разглагольствований упомянуть факт: в спорах о звуковых технологиях принято забывать о самой музыке. Мы до сих пор слушаем, к примеру, ранние записи "Битлз" и радуемся. Несмотря на то, что эти записи были сделаны на стиральных досках и целиком представить себе прогресс в области звуковых технологий, произошедший с тех времён, неподготовленному человеку едва ли возможно. У каждого музыканта свой взгляд на передачу идей, и поверьте мне на слово, меньше всего мы задумываемся о тёплом ламповом звуке и сферическом виниле в вакууме. Меньше всего музыкант думает о том, что кто-то будет слушать его запись с золотыми проводами и динамиками, около которых предварительно потанцевал шаман с бубном, заточив перед этим иглу звукоснимателя в пирамиде. Музыкант думает о том, чтобы донести свою мысль до слушателя. Прекрасно понимая, что в 90% случаев его музыка будет прослушиваться на весьма бюджетной аппаратуре, зачастую не выдерживающей никакой критики.
И потом, вот уже лет тридцать мир находится под властью синтезированного звука. Звука, появляющегося не из живых инструментов, а из разнообразных электронных устройств. И понятия "плоский звук" относительно электронного инструмента не может существовать вообще. Кто сказал, что звук синтезатора, который мы слышим на записи, должен звучать как-то иначе?
Кажется, я разобрал все темы, не затронутые в предыдущей статье. Есть вопросы? Добро пожаловать в комментарии.