В последнее время многие носятся как с писанной торбой с циферьками, полученными компонентом фубара DR, гордо демонстрируя аж по каждому треку. Но мало кто задумывается о сути. Что же, собственно, вычисляет модный DR? И что же такое динамический диапазон (ДД)? Кстати, фундаментальный показатель в звукописи и звуковоспроизведении.
Если упрощённо в двух словах, то ДД - это соотношение амплитуд самого громкого и самого тихого звуков (полезных сигналов). Причём как записанных на том или ином носителе, так и воспроизводимых с помощью аудио аппаратуры. Чем больший ДД обеспечивает аппаратура или носитель, тем лучше. Другое дело с каким динамическим диапазоном на этот носитель в итоге записывают звук в той же студии. Так, 16-ти битный сидюк обладая ДД теоретически 96 дБ (на практике ~80 дБ, шире - у тихих звуков искажения) с началом "войны громкости" содержит записи, утрамбованные в ~20 дБ и менее (если не считать не показательные тихие участки, например, начала и конца песни). Более того, 24-х битный хай-рез теоретически обладает ДД в 144 дБ, но в реальности всё гораздо скромнее. Дело в том, что лучшие микрофоны имеют ДД порядка 83 дБ, к тому же все записи в студиях всегда сжимаются динамическим компрессором для более плотного и громкого звучания, поэтому всё , что >~60 дБ, на массовых носителях избыточно. Кстати, винил ранее массово штамповали с ДД в 40..45 дБ, но сейчас повадились "новоделить" с ~25 дБ. И ничего, пипл хавает! Даже нахваливает!!!
Поскольку в определении ДД (в том числе приведенном в википедиях) допустимый уровень искажений для самого тихого звука (самого слабого полезного сигнала) не указан, то возникают разночтения. Понятно, если искажения огромны, то какой прок от возможности воспроизвести такой слабый звук!!! Но фокус в том, что искаженьица сигнала на уровне -80 дБ (от полной шкалы) и ниже человек просто-напросто не слышит даже на большой громкости, на которой, как правило, вылезают уже другие искажения. Кстати, синус частотой 1 кГц уровнем -80 дБ для 16-ти битного 44.1 кГц дискретизации сигнала на высококлассной аппаратуре прекрасно слышен, не выкручивая громкость, но при этом искажения (THD аж под 10 %) слух не замечает.
Динамический диапазон слуха человека на 20 Гц составляет 60 дБ, а на 16 кГц около 80 дБ, да и то лишь в ранней молодости. В области максимальной чувствительности (4 кГц) ДД слуха более 100 дБ. Выше - болевой порог и потеря слуха. При этом на быстрые большие изменения громкости наш слух реагирует болезненно.
Не путать динамический диапазон и соотношение сигнал-шум! Разница в тонкостях, но итоговые цифры заметно разные. В записанном сигнале всегда присутствует некий шум. В чисто цифровом сигнале шум (дискретизации, джиттера) ничтожный и на слух незаметный. В аналоговых сигналах привнесённый шум может составлять чудовищных величин, например, при многократной перезаписи с ленты на ленту на бытовых магнитофонах. Так вот, соотношение максимальной амплитуды полезного сигнала к сопутствующему шуму и есть пресловутое "сигнал-шум".
О компоненте DR (foo_dynamic_range.dll) уже понаписано немало. Необходимо упомянуть , что оный - реинкарнация утилиты Dynamic Range Meter от Pleasurize Music Foundation для популярного плеера Foobar2000 и в официальном списке отсутствует. Алгоритм не разглашается. Известно , что:
DR вычисляет степень отклонения сигнала от среднего в пределах трека, либо альбома. Низкие значения (как DR3) отражают излишество компрессии. Такие треки (DR3) обладают разницей в 3 децибела между средним и пиковым сигналом.
Поскольку акустический сигнал по своей природе полярный (есть положительные и отрицательные амплитуды), то среднее значение на значительном отрезке времени будет стремиться к нулю. Поэтому для получения информативного среднего по треку приходится вычислять классическое средне квадратичное отклонение (RMS), возводя каждую дискрету (амплитуду) в квадрат и складывая с накоплением, ну и извлекая корень из поделённой на количество дискрет суммы в завершение.
Не путать с RMS (Rated Maximum Sinusoidal) - Максимальная (предельная) синусоидальная мощность - мощность, при которой усилитель или колонка может работать в течение одного часа с реальным музыкальным сигналом без физического повреждения.
Пиковое значение сигнала - максимальная достигнутая амплитуда без учёта знака полярности, т.е. математически взятая по модулю. Отношение пиковой амплитуды акустического сигнала к его RMS даёт так называемый пик-фактор, который давно и широко используется в той же виброметрии. Очень полезный показатель, кстати. Характеризует "импульсность" сигнала: чем резче и сильнее всплеск, тем больше значение. Но для музыкального трека, чтобы корректно отразить "физику", следует вычислять несколько таковых, что в быту неудобно.
Однако можно поступить проще. Вычислить по треку с определённым окном во времени изменение пик-фактора, а затем найти среднее. Получим усреднённый пик-фактор. Но к реальному динамическому диапазону такой DR (или ему подобный) отношения не имеет.
Например для
получим следующее изменение RMS и пик-фактора по треку:
Слышал звон, да не знает где он [поговорка]
Утверждается, что чем меньше оценочное DR , тем больше компрессия сигнала. Сие есть необходимо, но ещё недостаточно.
Разумеется, для каждого стиля музыки такой DR будет существенно разным:
В общем то следует ожидать разного DR и для композиций одного стиля, но отличающихся темпом. Манера звукоизвлечения на электрогитаре тоже будет сказываться. И т.д. и т.п. Т.е. получаемые циферьки DR лишь прикидочные, фактически средняя температура по этажу больницы. Зачем тогда заморачиваться? А для самого процесса!)))
Но как же всё-таки выявить перекомпрессированную запись?