Маскировка звука: как одна частота перекрывает другую

3 июня3 июн

6 мин

Представьте: вы сводите сцену с плотным оркестром. Скрипки, медные, ударные — всё одновременно. Вы слышите общую массу звука, но отдельные инструменты в ней теряются. Фагот, который в изоляции звучит отчётливо и красиво, в полном оркестре практически исчезает. Вы поднимаете его уровень — он становится чуть громче, но не отчётливее. Поднимаете ещё — и он начинает резать, но всё равно не читается как отдельный голос в текстуре. Это не проблема уровней. Это маскировка. Что такое маскировка и почему она происходит Маскировка — это снижение слышимости одного звука в присутствии другого. Звук, который подавляет, называется маскером. Звук, который подавляется — целевым сигналом или зондом. Маскировка происходит на уровне физиологии уха, а не на уровне акустики: два звука могут физически присутствовать в воздухе, но один из них мозг не регистрирует, потому что нейронный ответ на него полностью перекрыт ответом на маскер. Механизм связан с устройством улитки. Базилярная мембрана реагирует на ра

Это не проблема уровней. Это маскировка.

Что такое маскировка и почему она происходит

Маскировка — это снижение слышимости одного звука в присутствии другого. Звук, который подавляет, называется маскером. Звук, который подавляется — целевым сигналом или зондом. Маскировка происходит на уровне физиологии уха, а не на уровне акустики: два звука могут физически присутствовать в воздухе, но один из них мозг не регистрирует, потому что нейронный ответ на него полностью перекрыт ответом на маскер.

Механизм связан с устройством улитки. Базилярная мембрана реагирует на разные частоты в разных точках: высокие частоты возбуждают основание, низкие — верхушку. Каждая частота соответствует определённому участку мембраны, и нейроны этого участка посылают сигнал в мозг. Когда два звука находятся близко по частоте, они возбуждают перекрывающиеся участки мембраны. Если один из звуков существенно громче, его возбуждение «затапливает» участок, на котором должен откликаться второй звук. Нейроны, которые должны были сообщить о втором звуке, уже заняты первым. Второй звук для мозга как будто не существует.

Одновременная маскировка

Самый очевидный тип — одновременная маскировка: маскер и целевой сигнал звучат в одно время. Именно это происходит с фаготом в оркестре.

Степень маскировки зависит от нескольких факторов. Первый — разница в уровне. Чем громче маскер относительно целевого сигнала, тем сильнее маскировка. Это интуитивно понятно.

Второй фактор — частотная близость. Звуки с близкими частотами маскируют друг друга сильнее, чем далёкие. Два синуса на 1000 и 1100 Гц замаскируют друг друга при меньшей разнице уровней, чем синусы на 1000 и 3000 Гц. Это связано с шириной критических полос — frequency bands, в пределах которых улитка обрабатывает звук как единое целое.

Третий фактор — асимметрия: низкие частоты маскируют высокие значительно эффективнее, чем высокие маскируют низкие. Это ключевой практический факт, и он объясняет бесконечное количество проблем, с которыми сталкиваются на миксе. Плотный низкочастотный фундамент — бас, бас-барабан, плотные нижние средние — съедает читаемость всего, что находится выше. Обратное работает хуже: высокочастотный маскер сравнительно мало мешает низким.

Временна́я маскировка: до и после

Одновременная маскировка понятна интуитивно. Но есть два явления, которые большинство людей не ожидают: маскировка работает не только в момент звучания маскера, но и до него, и после.

Прямая временна́я маскировка, или forward masking — это когда маскер уже замолчал, но целевой сигнал, пришедший сразу после, всё равно не слышен. Нейроны, возбуждённые маскером, какое-то время продолжают «восстанавливаться» и не успевают среагировать на новый сигнал. Продолжительность forward masking зависит от уровня и длительности маскера, но в типичных условиях — от нескольких миллисекунд до 100–200 мс для мощных маскеров.

Обратная временна́я маскировка, или backward masking — явление более странное. Маскер, пришедший после целевого сигнала, может подавить восприятие сигнала, который звучал до него. Это возможно потому, что слуховая обработка не мгновенная: мозгу нужно несколько миллисекунд, чтобы «принять решение» о том, что он слышит. Если в этот промежуток приходит мощный сигнал, он может перебить обработку более раннего. Диапазон backward masking небольшой — обычно до 20–30 мс — но он реальный и измеримый.

Для практической работы важнее forward masking. Он объясняет, почему атаки инструментов теряются в плотной текстуре: предыдущий звук ещё продолжает маскировать слуховую систему в момент, когда новый атакует.

Критические полосы и психоакустические кодеки

Понятие критической полосы — critical band — центральное для понимания маскировки. Улитка обрабатывает частоты не как непрерывный спектр, а как набор перекрывающихся полос, каждая из которых является единицей анализа. В пределах одной критической полосы звуки конкурируют за нейронные ресурсы сильнее всего — маскировка здесь максимальна. За пределами полосы маскировка резко ослабевает.

Ширина критической полосы измеряется в единицах Барк: весь слышимый диапазон делится примерно на 24 критических полосы. В нижней части спектра полосы узкие в герцах — около 100 Гц на частотах ниже 500 Гц. В верхней части они шире — тысячи герц. Это объясняет, почему низкочастотные конфликты в миксе так трудно разрешить: два баса с частотами 80 и 120 Гц попадают в одну или соседние критические полосы и маскируют друг друга очень эффективно.

На этом принципе построены все психоакустические кодеки: MP3, AAC, Dolby Digital, DTS. Кодек анализирует спектр в каждом временно́м окне, определяет, какие частоты замаскированы другими, и выделяет минимальное количество бит на информацию, которую слушатель всё равно не услышит. Маскированные компоненты кодируются с низкой точностью или не кодируются вообще. Это позволяет сжать аудио в несколько раз без субъективно заметных потерь — при умеренных битрейтах.

При низких битрейтах кодек начинает ошибаться в оценке маскировки, и замаскированные по его расчётам частоты оказываются слышимы. Отсюда характерные артефакты MP3 — «металлическое» звучание атак, «пузыри» вокруг транзиентов, размытие тихих деталей на фоне громких.

Как это меняет подход к миксу

Понимание маскировки переводит работу с EQ из режима «мне не нравится этот тембр» в режим «я управляю частотным пространством». Два инструмента, конкурирующие в одной критической полосе, будут маскировать друг друга вне зависимости от того, насколько хорошо каждый из них звучит в изоляции. Решение не в том, чтобы поднять тихий элемент, а в том, чтобы освободить для него частотное пространство.

Самый прямой инструмент — вырезающий EQ на маскере в диапазоне, где живёт целевой сигнал. Если бас маскирует нижние средние рояля, небольшой вырез в басу на частотах 200–400 Гц даст роялю пространство, которое подъём на роле не давал. Это контринтуитивно — кажется, что убирать из баса что-то лишнее, но именно там лежит конфликт.

Более изощрённый инструмент — динамический EQ или мультиполосный компрессор с sidechain. Вместо постоянного выреза вы делаете его только тогда, когда маскер фактически маскирует — то есть когда он достаточно громок в проблемной полосе. Бас в спокойных моментах звучит полно, но в моменты, когда рояль атакует, бас автоматически немного уходит в нижней середине, освобождая место.

Временна́я маскировка подсказывает другое решение: работу с транзиентами. Если инструмент теряется в текстуре, проблема часто не в его уровне, а в атаке. Transient shaper, который подчёркивает самое начало звука — именно ту часть, которая пробивается до того, как forward masking от предыдущего события ещё не закончился — даёт читаемость без общего подъёма уровня. Атака прорывается, тело звука существует в уже немного успокоившейся слуховой среде.

Почему это важно за пределами микса

Маскировка — это не только инструмент микширования. В звуковом дизайне понимание маскировки позволяет строить иерархию звуковых событий: что должно быть слышно отчётливо, что — ощущаться как фон, что — существовать на пороге восприятия. Звуковой дизайнер, который понимает критические полосы, может строить текстуры, где каждый элемент занимает своё частотное пространство и не конкурирует с соседями — не потому что уровни аккуратно сведены, а потому что спектральные диапазоны изначально распределены без конфликтов.

В постпродакшне кино это становится особенно заметно в сценах с одновременным диалогом, музыкой и плотной атмосферой. Диалог живёт преимущественно в диапазоне 300 Гц — 4 кГц. Музыкальная подложка, которая не должна мешать диалогу, должна уступать именно в этом диапазоне — не потому что так принято, а потому что именно здесь происходит маскировка, которая делает речь неразборчивой. Музыкант, который сводил трек не зная о маскировке в контексте диалога, может сделать красивую подложку, которая при наложении на голос превращается в кашу.

Маскировка не исчезает оттого, что вы о ней не знаете. Она просто работает без вашего участия.