HRTF: как мозг определяет, откуда звук идёт сверху

5 июня5 июн

8 мин

Закройте глаза и попросите кого-нибудь щёлкнуть пальцами прямо перед вами — на уровне носа. Потом над головой. Потом под подбородком. Вы безошибочно укажете, где был каждый щелчок, даже не видя источника. Это кажется само собой разумеющимся, но если разобраться в механизме, становится ясно, что это довольно неочевидное достижение слуховой системы. Горизонтальный угол — понятно: есть ITD и ILD, два уха дают разницу во времени и уровне. Но вертикаль? Оба уха находятся на одной горизонтальной плоскости. Звук сверху и звук снизу приходят к обоим ушам практически одновременно и с практически одинаковым уровнем. По классическим механизмам бинаурального слуха эти два источника должны быть неразличимы. Тем не менее вы их различаете. Почему — это и есть вопрос, на который отвечает HRTF. Что такое HRTF Head-Related Transfer Function — это передаточная функция от точки в свободном пространстве до барабанной перепонки. Проще говоря: HRTF описывает, как именно акустический сигнал изменяется на пути

Горизонтальный угол — понятно: есть ITD и ILD, два уха дают разницу во времени и уровне. Но вертикаль? Оба уха находятся на одной горизонтальной плоскости. Звук сверху и звук снизу приходят к обоим ушам практически одновременно и с практически одинаковым уровнем. По классическим механизмам бинаурального слуха эти два источника должны быть неразличимы. Тем не менее вы их различаете. Почему — это и есть вопрос, на который отвечает HRTF.

Что такое HRTF

Head-Related Transfer Function — это передаточная функция от точки в свободном пространстве до барабанной перепонки. Проще говоря: HRTF описывает, как именно акустический сигнал изменяется на пути от источника к уху с учётом всех препятствий и отражателей на этом пути — головы, ушной раковины, слухового канала, плеч, торса.

Формально HRTF — это комплексная функция двух переменных: азимута (горизонтальный угол) и элевации (вертикальный угол). Для каждой точки в пространстве она даёт свою амплитудно-частотную характеристику и свою временну́ю задержку. Измеряется она следующим образом: в ушные каналы испытуемого (или манекена) вставляются миниатюрные микрофоны, источник звука последовательно перемещается по сфере вокруг головы, и для каждого положения записывается импульсный отклик. Результат — база данных импульсных откликов, по одному для каждого направления для каждого уха.

В нижних и верхних частотах HRTF различается мало — там длина волны велика относительно размеров головы и ушной раковины, и дифракция сглаживает различия. В диапазоне примерно от 4 до 16 кГц — там, где длина волны сравнима с размерами ушной раковины — HRTF начинает сильно зависеть от угла. Именно здесь живёт информация о вертикальном положении.

Как ушная раковина кодирует вертикаль

Ушная раковина — это не просто воронка для сбора звука. Её сложная геометрия — завитки, противозавиток, козелок, углубления — создаёт систему крошечных резонаторов и отражателей. Прежде чем звук попадёт в слуховой канал, он многократно отражается внутри раковины, и каждое отражение добавляет к сигналу небольшую задержанную копию самого себя.

Результат этих многократных отражений — набор интерференционных минимумов в спектре, так называемые notches. Это частоты, на которых прямой звук и его отражение гасят друг друга. Частоты и глубина этих notch-ей зависят от того, под каким углом звук входит в раковину — то есть от вертикального положения источника. Звук сверху создаёт одну картину notch-ей, звук прямо перед вами — другую, звук снизу — третью.

Мозг за годы акустического опыта выучивает связь между этими спектральными паттернами и реальным положением источника. Когда вы слышите звук с характерным notch-паттерном, соответствующим элевации плюс 45 градусов, мозг интерпретирует это как «звук сверху» — не потому что это врождённое знание, а потому что тысячи раз в жизни тот же паттерн сопровождался визуальным или тактильным подтверждением того, что источник был сверху.

Самый известный notch в HRTF — около 8–10 кГц для звуков спереди на уровне уха. Для звуков сверху этот notch смещается вниз по частоте. Это измеримо и воспроизводимо, и именно эта зависимость лежит в основе всех попыток синтезировать ощущение вертикальной локализации в наушниках.

Почему HRTF у всех разная

Геометрия ушной раковины уникальна для каждого человека — примерно как отпечатки пальцев. Размер, форма завитков, глубина чаши, угол наклона, расстояние между ушами — всё это варьируется. Соответственно, notch-паттерны, которые создаёт ваша раковина, не совпадают с теми, которые создаёт моя. И ассоциации, которые ваш мозг выстроил между этими паттернами и реальными направлениями, тоже не совпадают с моими.

Это означает, что универсальной HRTF не существует. Есть усреднённые HRTF, полученные на группах испытуемых — например, KEMAR (Knowles Electronics Manikin for Acoustic Research), который десятилетиями использовался как стандартный манекен для измерений. Усреднённая HRTF работает для многих людей приемлемо, но не идеально ни для кого. Для части людей она работает хорошо — их индивидуальная HRTF близка к среднему. Для другой части — практически не работает в части вертикальной локализации, хотя горизонталь воспроизводится нормально.

Вертикальная локализация страдает первой, потому что зависит исключительно от ушной раковины. Горизонталь опирается на ITD и ILD, которые относительно стабильны между людьми — расстояние между ушами варьируется в пределах нескольких сантиметров, и это влияет на ITD, но не катастрофически. Notch-паттерны раковины варьируются несравнимо больше и несравнимо индивидуальнее.

Адаптация и обучение

Есть серия классических экспериментов, в которых испытуемым вставляли в ушные раковины вкладыши из воска, частично заполняя углубления и меняя геометрию раковины. В первые часы и дни вертикальная локализация у испытуемых полностью разваливалась — мозг получал незнакомые notch-паттерны и не мог соотнести их с направлениями. Горизонтальная при этом сохранялась — ITD и ILD остались прежними.

Через несколько недель ношения вкладышей испытуемые постепенно восстанавливали вертикальную локализацию — мозг выстраивал новые ассоциации для изменённых паттернов. Когда вкладыши снимали, локализация снова разваливалась на короткое время, а затем возвращалась к исходному состоянию. Это прямое доказательство того, что HRTF-калибровка — процесс обучения, а не врождённая программа.

Практическое следствие: люди, которые регулярно слушают binaural-контент или пространственное аудио в наушниках, постепенно адаптируются к HRTF конкретной системы воспроизведения и начинают локализовать лучше. Это не быстро — недели, а не часы — но эффект реальный и измеримый. Именно поэтому первое впечатление от binaural-рендера не всегда честно отражает то, как человек будет воспринимать его после привыкания.

HRTF в практике пространственного аудио

Когда Atmos-микс рендерится в binaural для наушников — через Apple Music, Tidal, или напрямую в DAW — рендерер применяет набор HRTF-фильтров к каждому объекту. Для каждого направления, в котором находится объект, рендерер берёт соответствующий импульсный отклик из базы данных и свёртывает с ним сигнал. Результат — сигнал с «встроенными» спектральными паттернами, которые слуховая система должна интерпретировать как локализацию в данной точке пространства.

Качество этого рендеринга зависит от двух вещей: качества самой HRTF-базы данных и того, насколько она совпадает с индивидуальной HRTF слушателя.

Первая переменная — в руках разработчика системы. Хорошая база данных измеряется в заглушённой камере на большом количестве направлений с высоким разрешением. Apple использует собственную базу, Sony — свою, Dolby — свою. Они различаются по охвату направлений, по методике измерений, по тому, как интерполируются значения между измеренными точками.

Вторая переменная — в руках физиологии. Здесь у разработчиков есть два пути. Первый — персонализация через измерение или оценку индивидуальной HRTF. Sony 360 Reality Audio делает это через фотографирование ушей — алгоритм оценивает геометрию раковины по снимку и строит приближённую индивидуальную HRTF. Apple в последних версиях AirPods Pro использует акселерометры и гироскопы для head tracking — это не персонализация HRTF, но позволяет компенсировать повороты головы, что само по себе улучшает стабильность пространственного образа.

Второй путь — сделать усреднённую HRTF достаточно хорошей для большинства слушателей и смириться с тем, что для части она работает хуже. Это компромисс между качеством и масштабируемостью.

Что из этого следует для звукорежиссёра

Первое следствие — вертикальная составляющая Atmos-микса в binaural-рендере будет работать по-разному для разных слушателей. Объект, который вы разместили строго сверху и который убедительно локализуется в вашей студийной системе с реальными потолочными колонками, в naушниках у части аудитории может восприниматься как фронтальный или как неопределённо «широкий». Это не ошибка микса — это физиология.

Практическое следствие: не перегружайте верхний ярус нарративно важными звуковыми событиями, если контент будет доставляться преимущественно в наушниках. Атмосфера, амбиенс, диффузные элементы — хорошие кандидаты для верхнего яруса, потому что их точная локализация не критична для восприятия. Конкретный звуковой объект, который должен читаться как «вертолёт над головой» — рискованный выбор для верхнего яруса в naушниковой доставке, потому что часть аудитории его просто не локализует туда.

Второе следствие — head tracking принципиально меняет ситуацию. Когда слушатель поворачивает голову и пространственный образ остаётся на месте относительно комнаты (а не «едет» вместе с головой), мозг получает мощное подтверждение того, что источники действительно внешние. Это компенсирует часть проблем с индивидуальными HRTF, потому что добавляет динамическую информацию — а динамические подсказки локализации мозг обрабатывает иначе и надёжнее, чем статические спектральные паттерны.

Системы с head tracking — AirPods Pro, некоторые модели Sony и Bose — дают заметно более убедительную пространственную локализацию, чем те же наушники без него. При работе над контентом, который будет слушаться в таких системах, это стоит учитывать как аргумент в пользу более активного использования верхнего яруса: динамические подсказки помогут мозгу локализовать то, что статические paттерны локализовали бы ненадёжно.

Третье следствие касается мониторинга. Если вы проверяете binaural-рендер своего Atmos-микса и вертикаль работает для вас хорошо — это не значит, что она будет работать для большинства слушателей. Ваша HRTF может просто хорошо совпадать с усреднённой базой рендерера. Полезно слушать binaural-рендер на нескольких людях с разной морфологией ушной раковины — это быстро показывает, насколько стабильна вертикальная локализация ваших объектов за пределами вашей собственной физиологии.

Это не повод отказываться от верхнего яруса и не повод не доверять binaural-рендерингу. Это повод понимать, с чем именно вы работаете — и принимать решения осознанно, а не в расчёте на то, что у всех слушателей уши как у вас.