Найти тему
imlight ru

Информация по глубине квантования и частоте дискретизации

Оглавление

Оптимальные числа...

Работа с современным звуковым оборудованием требует от пользователя всё больше и больше знаний в различных областях науки. Помимо обязательных дисциплин – электроакустики и электротехники, каждый специалист современной отрасли звукоусиления должен обладать (хотя бы) базовыми знаниями по информатике, программной инженерии, физике. Безусловно, это касается только тех, кто считает себя профессионалом, а своё оборудование – профессиональным (для остальных вполне достаточно прочитать руководство пользователя к конкретному прибору).

Пытаясь найти повод для серьёзных дискуссий с «серьёзными парнями», в прошлом выпуске «звуковых новостей» мы затронули проблему выбора разделительных фильтров и удивительных открытий на этом поле. Сегодня мы зайдем ещё дальше и поговорим о нюансах в преобразованиях сигнала в цифровой среде. Вероятно, кто-то что-то уже подозревал и сам, но мы все же попросили обобщить знания по этому вопросу одного из самых авторитетных инженеров индустрии – Микеле Марани.

ЗВУК — это физическое явление, НЕПРЕРЫВНО воспринимаемое органами слуха, что означает, что наши уши могут воспринимать звук на всех промежуточных уровнях: 1) с точки зрения амплитуды, от самого низкого уровня до максимума, и 2) с точки зрения времени, что означает, что наши уши в определённом диапазоне частот могут НЕПРЕРЫВНО воспринимать все частоты, от самой низкой до самой высокой (частота — число повторений одного тона (один период колебаний) за единицу времени).

На рисунке выше видно, что если за единицу времени мы имеем только один ПЕРИОД колебаний, то получаем основной тон, который будет высотой (частотой) звука, если такой период колебаний будет повторяться циклически. Если период завершается за время T, то при циклическом повторе мы должны услышать звук, частота которого равна F=1/T.

На рисунке пунктирная синяя линия обозначает период колебаний T/2, который составляет половину основного тона (сплошная красная линия), поэтому мы ожидаем, что циклическое повторение тона, показанного пунктирной синей линией, будет иметь частоту F=1/(T/2 )=2/T. Действительно, тон, показанный синей пунктирной линией, имеет в два раза более высокую частоту, чем основной тон (сплошная красная линия).

При необходимости обработки звука в ЦИФРОВОЙ СРЕДЕ, где единственные известные уровни амплитуды описываются БИТАМИ (0/1), ВРЕМЯ не является непрерывным, а контролируется тактовыми сигналами. Концепция непрерывности превращается в ДИСКРЕТНОСТЬ: в цифровой среде амплитуды и временные характеристики звука от своих минимальных до максимальных значений изменяются СТУПЕНЧАТО, с относительно большими шагами.

-2

Простой пример, позволяющий отчётливо понять разницу между понятием непрерывности и дискретности, — это сравнение пандуса и лестницы (Рис. выше). Если нам необходимо подняться по пандусу, мы можем шагать с любым интервалом. Если же нам нужно подняться по лестнице, мы не сможем подняться на высоту меньше, чем расстояние между двумя ступенями лестницы. Другими словами, мы не можем определить промежуточную высоту между двумя ступенями.

Для последующей обработки или изменения звука с помощью компьютерных процессов необходимо ПРЕОБРАЗОВАТЬ физическое событие, слышимое нашими ушами, в цифровой сигнал (дискретный код), обрабатываемый ЦИФРОВЫМ ПРОЦЕССОРОМ. Это делается в два этапа. Первый — преобразование физического явления «звук» в электрический сигнал, который будет ТОЧНО соответствовать реальному звуку, ведущему себя АНАЛОГОВЫМ образом.

-3

Это первое преобразование, выполняемое микрофонами при записи звуков природы или классических инструментов, обеспечивает получение электрического сигнала, который ведёт себя аналоговым образом и поэтому называется аналоговым сигналом. Это НЕПРЕРЫВНЫЙ СИГНАЛ, который может быть записан, например, на ленту, и при воспроизведении обладает характеристиками исходных звуков с точки зрения уровней амплитуды и распределения частот.

-4

Аналоговый сигнал может обрабатываться аналоговыми устройствами, например, динамическими компрессорами или эквалайзерами.

Но, опять же, такой сигнал не может быть обработан компьютерными средствами.

Поэтому необходимо выполнить второе преобразование — АНАЛОГО-ЦИФРОВОЕ. Это преобразование позволяет «перевести» аналоговый сигнал, точно представляющий исходный звук, в последовательность цифр 0/1.

-5

Эта последовательность цифр по-прежнему представляет исходный звук и может обрабатываться компьютерными средствами, например, процессорами.

-6

Точность АНАЛОГО-ЦИФРОВОГО ПРЕОБРАЗОВАНИЯ — это то, что может гарантировать сохранение в цифровом виде ВСЕЙ информации, содержащейся в оригинальном звуке.

Существует два параметра, которые могут гарантировать точность преобразования:

  1. ГЛУБИНА КВАНТОВАНИЯ
  2. ЧАСТОТА ДИСКРЕТИЗАЦИИ

ГЛУБИНА КВАНТОВАНИЯ

Как было сказано выше, компьютер или любое цифровое устройство для обработки звука может работать с последовательностями битов, которые характеризуются наличием только двух уровней — 0 и 1. Системы, работающие на основе битов, называются ДВОИЧНЫМИ СИСТЕМАМИ.

-7

Каждый бит, также называемый «ЧИСЛО», может принимать только два значения – 0 или 1, поэтому, если мы хотим представить более высокие числа, необходимо собрать биты в КОМБИНАЦИИ.

Размер комбинации битов определяет, насколько большим может быть максимальное значение представленных чисел, а сама комбинация двоичных цифр/битов используется для описания любых действий компьютера, включая управление звуком.

Компьютеры могут одновременно работать с целыми комбинациями этих битов. Группа из 8 битов известна как байт, один или несколько байтов составляют цифровое слово. Шестнадцать битов (два байта) означают, что в слове 16 цифр, каждая из которых равна 1 или 0. Двадцать четыре бита (три байта) означают, что в слове содержится 24 двоичных разряда и т. д.

Количество битов в слове определяет точность значений. Работа с более высокой глубиной квантования похожа на измерение линейкой с меньшим шагом шкалы — вы получаете более точное измерение. Таким образом, более высокая глубина квантования позволяет системе точно записывать и воспроизводить более тонкие колебания формы волны (Рис. 1).

-8

Чем выше глубина квантования, тем больше данных будет преобразовано для более точного воссоздания звука. Если глубина квантования слишком мала, информация будет потеряна, а качество воспроизводимого звука ухудшится. Для сравнения, каждый образец, записанный с 16-битным разрешением, может содержать любое из 65 536 уникальных значений (2 в степени 16). При 24-битном разрешении вы получаете 16 777 216 уникальных значений (2 в степени 24) — огромная разница!

Здесь можно было бы подумать, что чем больше битов используется, тем лучше результат в отношении детализации амплитуды сигнала. Тем не менее, необходимо учитывать несколько аспектов, а именно: реальную способность аппаратного преобразователя точно измерять такую небольшую разницу в амплитуде, реальную способность акустической системы воспроизвести такую небольшую разницу и, наконец, возможность человеческого уха воспринимать такую маленькую разницу.

Широко распространено мнение, что за пределами РЕАЛЬНЫХ 20 бит глубины квантования, ещё не существует систем воспроизведения звука, способных точно воспроизводить столь малые различия в амплитуде. И уж точно это относится к стандартным и широко распространённым акустическим системам.

В конечном итоге, даже при условии воспроизведения такого высокоточного сигнала, необходимо учитывать способность человеческого уха его воспринимать.

ЧАСТОТА ДИСКРЕТИЗАЦИИ

Для преобразования аналогового сигнала в цифровой необходимо соответствие второму требованию цифрового устройства, работающего в установленных временных рамках, определяемых тактовыми сигналами. Поэтому, как показано выше, цифровому устройству необходимо предоставить комбинацию битов, соответствующую уровню аналогового сигнала, который должен быть измерен через определённые отрезки времени.

-9

Операция измерения уровня аналогового сигнала называется ВЫБОРКА, и, поскольку она должна выполняться через определённые ИНТЕРВАЛЫ времени, то есть с определённой ЧАСТОТОЙ, такая частота измерения аналогового сигнала называется ЧАСТОТОЙ ВЫБОРКИ или ЧАСТОТОЙ ДИСКРЕТИЗАЦИИ.

-10

Рассматривая пример с форматом Audio CD, мы принимаем условие, что частота дискретизации составляет 44,1 кГц, а глубина квантования — 16 бит. Таким образом, количество выборок — 44 100 в секунду с 16-битным разрешением (комбинация 16 битов), что позволяет получить диапазон 65 536 значений (как положительных, так и отрицательных). Максимальное значение здесь 32 767, а минимальное −32 768.

Существует ТЕОРЕМА, называемая теоремой Найквиста—Шеннона (она же теорема Котельникова, теорема отсчётов), которая гласит, что для точного восстановления сигнала в заданной полосе частот (например, во всей полосе слышимых частот 20 Гц — 20 кГц), частота дискретизации должна более чем в два раза превышать максимальную частоту в спектре сигнала. Если используется более низкая частота дискретизации, информация об исходном сигнале может быть не полностью восстановлена из дискретизированного сигнала (Рис. 2).

-11

Если аналоговый сигнал преобразуется с правильной частотой дискретизации, которая, как сказано выше, вдвое превышает максимальную частоту спектра сигнала, результат преобразования содержит ВСЮ НЕОБХОДИМУЮ ИНФОРМАЦИЮ для восстановления исходного сигнала без каких-либо потерь.

Если частота дискретизации слишком низкая, могут возникнуть алиасинговые искажения. Алиасинг является серьёзной проблемой при аналого-цифровом преобразовании. Неправильная дискретизация аналогового сигнала приведёт к тому, что высокочастотные составляющие сигнала будут накладываться на его низкочастотные составляющие. В результате при цифро-аналоговом преобразовании мы получим восстановленный сигнал с искажениями.

Кроме того, более высокая частота дискретизации позволяет записывать очень высокие частоты, которые находятся за пределами восприятия человеческим ухом. Хотя сами по себе эти ультразвуковые частоты не различимы на слух, они могут взаимодействовать, создавая ИНТЕРМОДУЛЯЦИОННЫЕ ИСКАЖЕНИЯ, которые, по мнению многих инженеров, придают сигналам слышимого диапазона едва уловимые психоакустические эффекты.

Небольшое отступление по данному вопросу:

Интермодуляция — это явление объединения нежелательных частотных составляющих внутри активной системы, например, в управляющем процессоре, или поступающих к ней от внешнего источника. Такие составляющие, в нашем случае, могут находиться в полосе частот, которая не различима на слух, но всё ещё «захватываются» из-за высокой частоты дискретизации. Комбинация двух или более из этих неотфильтрованных нежелательных сигналов создаст другой сигнал, который может вызывать искажения в системе. Более того, такой сигнал может находиться в слышимом спектре обработанного сигнала.

-12

На рисунке выше мы можем видеть, что взаимодействие двух сигналов, f1 и f2, может порождать другие сигналы, например, комбинации их гармоник и субгармоник. Комбинации таких субгармоник могут попадать в полосу частот, которые различимы на слух. Таким образом, риск получить искажения, исходящие от комбинации неотфильтрованных нежелательных сигналов, расположенных далеко за пределами слышимого диапазона, является реальным.

Два приведённых выше соображения и теорема Найквиста подводят к следующим заключениям об оптимальной частоте дискретизации:

  1. Вся необходимая информация, содержащаяся в исходном аналоговом сигнале, сохраняется в процессе преобразования с частотой дискретизации, равной или превышающей максимальную частоту в интересующей полосе частот. Если мы примем, что человеческий слух не может воспринимать сигналы выше 20 кГц, то частота дискретизации 40 кГц даёт нам всю информацию об исходном сигнале, которую мы можем услышать.
  2. Чтобы избежать проблемы с алиасингом, необходимо отфильтровать восстанавливаемый аналоговый сигнал после цифровой обработки.
  3. Фильтр с высокой степенью крутизны среза, слишком близкий к максимальной слышимой частоте, может привести к нежелательной модификации сигнала, что приведёт к появлению нежелательных артефактов. Для того, чтобы устранить эту проблему алиасинга, определённая степень передискретизации поможет использовать простые фильтры с низкими значениями поворота фазы, расположенные достаточно далеко от максимальной слышимой частоты, чтобы не влиять на слышимый восстанавливаемый сигнал. Эксперты и профессионалы считают, что ОПТИМАЛЬНАЯ ЧАСТОТА ДИСКРЕТИЗАЦИИ составляет от 88 кГц до 96 кГц.
  4. Как видно из пункта выше, избыточная передискретизация, как, например, частота дискретизации 192 кГц, вместо этого может привести к возникновению нежелательных дополнительных гармоник из-за ИНТЕРМОДУЛЯЦИОННЫХ ИСКАЖЕНИЙ.

Приводя слова профессионалов:

«Цифровые музыкальные файлы с частотой дискретизации 192 кГц не обладают никакими преимуществами. Они также не совсем нейтральны, практическая точность сигнала немного хуже. Ультразвук является помехой во время воспроизведения.

Это противоречит многим первоначальным представлениям о сверхзвуковых частотах дискретизации, в том числе и моему собственному. Но доказательства этому существуют. Поскольку аналоговые схемы почти никогда не обладают линейными характеристиками на сверхвысоких частотах, они могут и будут вносить особый тип искажений, называемый интермодуляционными искажениями. Это означает, что две частоты, которые невозможно услышать, скажем, 22 кГц и 32 кГц, могут создавать интермодуляционные искажения в слышимом диапазоне, в данном случае на частоте 10 кГц. Когда сверхзвуковые частоты не отфильтровываются — это реальный риск».

«Многие согласны с ложным представлением о том, что работа с частотой дискретизации выше оптимальной может улучшить звук. Правда заключается в том, что существует оптимальная частота дискретизации, и работа с частотой дискретизации выше оптимальной ставит под угрозу точность звука. Некоторым это кажется нелогичным, но полностью доказано. Тогда как большинство сторонников частоты дискретизации выше оптимальной предлагают только субъективные результаты в её поддержку, существует реальная вероятность того, что ДОПОЛНИТЕЛЬНЫЕ детали, слышимые некоторыми слушателями, возникают из-за дополнительных гармоник (эффект интермодуляции), которые могут быть приятными на слух, но, безусловно, не существуют в исходном материале и, следовательно, считаются крайне нежелательными для профессиональных пользователей».

#IMLIGHT #MARANI