Когда вы слышите звук в наушниках, происходит кое-что странное. Мозг принимает сигнал, который физически существует только внутри головы — два раздельных канала, левый и правый — и тем не менее иногда выстраивает из этого образ пространства. Голос ведущего подкаста кажется расположенным где-то между ушами. Виолончель в записи Баха плавает чуть правее центра. Хороший binaural-микс вдруг помещает звонок телефона за спиной, и вы оборачиваетесь, хотя в комнате никого нет.
Это и есть бинауральный звук — не формат, не кодек, а принцип. И чтобы понять, как он работает, нужно сначала разобраться, как вообще устроена пространственная слуховая система человека.
Две ушные раковины вместо одной камеры
Мы определяем направление звука несколькими способами одновременно. Первый и самый очевидный — разница во времени: звук, идущий справа, достигает правого уха немного раньше левого. Эта задержка называется ITD — Interaural Time Difference — и измеряется в микросекундах. Слуховая система чувствует разницу уже от 10 мкс, что соответствует смещению источника примерно на один градус в горизонтальной плоскости. Это очень точно.
Второй механизм — разница в уровне: ILD, Interaural Level Difference. Голова является акустической тенью. Когда звук идёт строго справа, правое ухо слышит его громче, потому что левое частично экранировано черепом. Этот эффект особенно выражен на высоких частотах — выше примерно 1500 Гц — потому что длина волны становится сравнима с размером головы. Низкие частоты огибают голову почти без потерь, поэтому ILD там почти не работает.
ITD и ILD вместе дают мозгу достаточно информации, чтобы уверенно определить горизонтальный угол источника. Но они почти ничего не говорят о том, находится ли звук спереди или сзади, снизу или сверху. Здесь в дело вступает третий механизм.
HRTF — персональный фильтр каждого человека
Ушная раковина — структура неожиданно сложная. Её складки, завитки и углубления работают как набор крошечных отражателей. Прежде чем звук попадёт в слуховой канал, он многократно отражается внутри раковины, и каждый угол падения даёт немного другую картину отражений. Мозг, обученный на годах акустического опыта, умеет читать эти тонкие изменения спектра и извлекать из них информацию о вертикальном положении источника.
Совокупность всех этих фильтрующих эффектов — форма головы, ушных раковин, плеч, торса — описывается функцией HRTF: Head-Related Transfer Function. Это, по существу, акустическая передаточная функция от точки в пространстве до барабанной перепонки. Для каждого направления она своя.
Проблема в том, что HRTF у каждого человека уникальна. Ваша ушная раковина не совпадает с моей, и фильтры, которые ваш мозг выработал за жизнь, тоже не совпадают. Это объясняет, почему один и тот же binaural-трек у одного человека создаёт убедительное ощущение внешнего пространства, а у другого звук всё равно слышится «в голове».
Что происходит в наушниках
Обычная стереозапись создаётся для прослушивания через акустические системы. Когда вы слушаете её через колонки, оба уха одновременно слышат оба канала — с небольшой задержкой и изменением спектра за счёт перекрёстного переслушивания (crosstalk). Этот crosstalk — не помеха, а акустическое условие, при котором привычная стереопанорама вообще работает.
Наушники этот crosstalk убирают полностью. Левый канал идёт строго в левое ухо, правый — строго в правое. В результате мозг получает сигнал, который не соответствует ни одной реальной акустической ситуации. Источники не локализуются снаружи — они «залипают» внутри головы, в точке between the ears. Звукорежиссёры называют это in-head localization, и это принципиально другое перцептивное состояние, чем прослушивание через колонки.
Binaural-запись решает эту задачу иначе. Вместо обычных микрофонов используется искусственная голова с микрофонами в ушных каналах — или реальная голова живого человека с теми же микрофонами. Звук пишется уже с «встроенными» HRTF-фильтрами: рефлексиями раковин, тенью головы, вкладом торса. Когда вы надеваете наушники и слушаете такую запись, мозг получает сигнал, совпадающий с тем, что он ожидает при реальном нахождении в пространстве.
Почему это работает не всегда
Точнее было бы сказать — почему это работает у одних и плохо работает у других. Главная причина уже названа: несовпадение HRTF. Запись сделана с конкретной «головой» — чаще всего манекеном вроде знаменитого KEMAR — с её конкретными ушными раковинами. Если ваша геометрия сильно отличается, мозг не распознаёт паттерн отражений как реальную локализацию.
Исследования показывают, что вертикальная локализация — ощущение «звук сверху» или «снизу» — особенно чувствительна к несовпадению HRTF. Горизонтальный угол определяется преимущественно через ITD и ILD, которые не так зависят от формы ушной раковины. Вертикаль же почти полностью зависит от спектральных паттернов раковины — и здесь разброс между людьми очень велик.
Есть и другой фактор — опыт. Пространственное слышание не является врождённым в деталях. Мозг калиброет свои внутренние модели через годы акустического опыта и зрительно-слуховой интеграции. Люди, которые слушают много binaural-контента, постепенно привыкают к «чужим» HRTF и начинают локализовать лучше. Это не быстрый процесс, но он реальный.
Как это используется в практике
В кино и постпродакшне binaural-рендеринг применяется прежде всего в VR и иммерсивных форматах — там, где контент заведомо рассчитан на наушники. Для обычного кинотеатра binaural не нужен: там работает реальная акустика зала с настоящим многоканальным воспроизведением.
Но grasp of HRTF меняет и то, как думаешь о Dolby Atmos-доставке в наушники. Когда Atmos-микс рендерится в binaural для стриминга — а именно так он попадает в AirPods через Apple Music или в Sony WH-1000XM через Tidal — используется именно этот принцип. Платформа применяет набор HRTF-фильтров (свои у Apple, свои у Sony) к объектному миксу и пытается воссоздать иллюзию объёма. Результат зависит от того, насколько хорошо выбранный фильтр совпадает с вашей физиологией.
Некоторые платформы — в частности, Sony 360 Reality Audio — позволяют делать персонализацию: вы фотографируете уши через приложение, алгоритм строит приближённую модель вашей HRTF и применяет её при воспроизведении. Это работает заметно лучше, чем усреднённый фильтр, хотя и не идеально — фотография даёт только геометрию внешней раковины, но не учитывает слуховой канал, резонансы канала и индивидуальные нейронные калибровки.
Это направление будет развиваться. Проблема персонализации HRTF остаётся одной из открытых задач в пространственном аудио — и от её решения во многом зависит, насколько убедительным станет binaural как универсальный инструмент доставки иммерсивного звука.