13 подписчиков

Демистификация «семпл рейта»

8 минут

44 прочтения

31 июля 2020

«В каком семпл рейте будем записывать?» — вопрос, который может поставить в тупик как начинающих, так и опытных музыкантов, впрочем и довольно многих звукорежиссёров. Не слишком приятно ставить в неловкое положение людей, задавая подобного рода вопросы. Ещё неприятнее — самому не суметь объяснить суть.

Вот основные варианты ответа на вышеприведённый вопрос:

1) 44.1 кГц (сорок четыре тысячи сто герц)

2) 48 кГц (сорок восемь тысяч герц)

3) 88.2 кГц (восемьдесят восемь тысяч двести герц)

4) 96 кГц (девяносто шесть тысяч герц)

В действительности, список возможных вариантов начинается гораздо раньше, например для кодировки речи в телефонном разговоре используются всего 8кГц, а продолжить его можно вплоть до 22,579,200 Гц, но, если мы говорим о студийной записи, это уже ТОЧНО настолько же бессмысленно и энергозатратно, насколько, скажем, вновь присоединять некогда принадлежавшие самой большой стране полуостров ;)

В этой статье мы постараемся разобраться действительно ли высокий семпл рейт — залог качественной записи, ведь вполне естественно, что когда вы платите, скажем, 2000 р/ч за запись на студии, вы инстинктивно стремитесь выбирать всё самое лучшее, коим и может показаться четвёртый вариант.

И вы абсолютно правы, 96 кГц — лучший семпл рейт! Конец статьи!

Окей, шутка.

Что вообще такое «герц» и «семпл рейт»?

Нууу…если верить Википедии, то один герц — это единица измерения количества колебаний в секунду. Соответственно, 44100 Гц = 44100 колебаний в секунду, а 96000 Гц = 96000 колебаний в секунду.

Почему нас вообще интересуют колебания чего либо? Нууу.. потому что звук — это результат колебания частиц воздуха.

При записи, скажем, ФАГОТА, мембрана внутри микрофона чутко (степень чуткости зависит от типа микрофона, это отдельная история) реагирует на те самые колебания воздуха, вызываемые фаготом и двигаясь, выражаясь чистым языком науки, туда-сюда, преобразовывает их в электрический ток, который поступает в аудио конвертер, девайс, отвечающий за превращение аналогового сигнала в цифровой (кстати ровно то же самое делает мембрана в нашем ухе — она отвечает колебаниями на колебания воздуха, которые затем преобразовываются мозгом в электрические сигналы).

Пример балдёжных звуковых колебаний (нет):

Семпл рейт — это то количество кусочков, на которое вышеупомянутый аудио конвертер делит поступающий в него сигнал каждую секунду, чтобы его оцифровать и воссоздать вновь, но уже в виде единиц и нулей. Жалкую попытку бездушной машины изобразить грациозную синусоиду можно наблюдать здесь:

Вполне логично предположить: «Йоу! Если семпл рейт конвертера — 44100 Гц, значит девайс делит секунду поступающего аналогового сигнала на 44100 кусочков, следовательно, увеличив семпл рейт до, скажем 88200 Гц (один из вариантов приведённых в начале статьи), мы получим в два раза более гладкую и приближенную к аналоговому миру волну! Профит очевиден!». ТАК считает ОЧЕНЬ много людей. Так считал и я. И как же мы все ошибались…

Необходимо сразу оговориться: на графике выше представлена волна типа «идеальная синусоида», коих в обычной природе не встречается. Волны с которыми мы сталкиваемся записывая музыку выглядят примерно так:

Но описываются подобные волны именно с помощью синусоид по закону преобразования Фурье, а значит то, что справедливо по отношению к синусоидам, применимо и к сложным волнам.

скучный пример описания квадратной волны синусоидами

Частота Найквиста

Швеция подарила нам много замечательных вещей среди которых: Ikea, ABBA, The Hives, Viagra Boys, Spotify, PewDiePie, Minecraft, Volvo… и, что самое главное, Швеция подарила нам Гарри Найквиста.

Именно этот чел, в соавторстве с другими ребятами, именами которых можно запросто и демонстративно пренебречь, в начале 20-го века сформулировал то, что определило принципы работы цифровой музыки задолго до её проявления. Если вкратце, то вот что он сказал: «Йöу, я Гåрри Нåйквист, я прибыть из Швеция и я öтветственнö зåявляйт, чтö для тöгö чтöбы закöдирöвать öдин цикл вöлны любöй чåстöты, нåм неöбхöдимö всегö двå её семпла: самöе нижнее и самöе верхнее знåчение, всё öстальнöе сделает мåтемåтикå. Пруфöв не будет!».

На самом деле, конечно, пруфы были предоставлены и по сей день не вызывают никаких сомнений, здесь можно ознакомиться с теорией должным образом, если вы ботан и у вас нет личной жизни. Но если резюмировать, действительно, для правильной кодировки сигнала, требуется частота кодировки (семпл рейт) в два раза выше самой высокой частоты в сигнале. Просто примите это.

О человеческом слухе:

Принято считать, что человек может различать спектр частот от 20Гц до 20кГц(20000Гц). Но это достаточно условная информация, так как уже к 30 годам, вы скорее всего не сможете различать частоты выше 16,5 кГц. А, например, мой сосед снизу, судя по тому на сколько громко он слушает музыку по пятницам, с трудом регистрирует частоты уже свыше 10кГц. Стоит ли расстраиваться по этому поводу? Не думаю…если только вы не слушаете музыку, где на вокале летучие мыши или дельфины.

На графике ниже представлена среднестатистическая зависимость между регистрируемыми ухом частотами и возрастом. А вот здесь вы можете проверить свой слух! Рекомендую для чистоты эксперимента использовать наушники. Напишите в комментарии ваш результат (мой — 17кГц).

соотношение возраста и верхнего порога восприятия частот

примеры восприятия частот среди животных

Выходит, что даже если вы слышите абсолютно идеально от 20Гц до 20кГц, опираясь на теорию Найквиста, которая говорит нам, что для правильной конвертации, частота кодировки должна быть в два раза выше значения самой высокой частоты, нам потребуется семпл рейт всего в 40кГц?

Получается, что так! Если только мы не записываем музыку для, например, канарейки, потому как тогда было бы достаточно семпл рейта в 8кГц, ведь канарейка может слышать только в диапазоне от 250Гц до 4кГц. Кстати, я уже говорил, что аудио в телефонной связи кодируется таким же образом? Это делает возможным телефонный разговор с канарейкой. Ого!

Если мы твёрдо решили для себя, что человек способен различать сигналы, при самом оптимистичном раскладе, от 20Гц до 20кГц, а кодировать для этого необходимо с частотой в 40кГц, то вы, наверное задаётесь вопросами: почему нам не предоставляется такая опция производителями конвертеров? (ЗАПОМНИТЕ ЭТОТ ВОПРОС) Почему нижний порог — 44.1 кГц? Более того, нам предлагаются семпл рейты ещё выше (например — 48, 88.2, 96, 192 кГц) Почему? Когда всё это кончится??КТО Я??!

Алиасинг и фильтр верхних частот.

Дело в том, что существуют звуки и выше 20кГц. Мы их не слышим, но это не значит, что их нет. Может ли быть такое, что в записанном сигнале самая высокая частота, которую мы слышим на самом деле НЕ является самой высокой частотой? Конечно, так и есть. Давайте доведём до абсурда:

Вы решили записать на микрофон мурлыкание своего кота, используя семпл рейт 44.1 кГц. Но вы из тех людей, кто помимо кошек очень любит летучих мышей и держит их в своей двушке в Выхине.

Пока кот мирно мурлыкает в микрофон, мыши беснуются в соседней комнате, играя в нарды на раздевание и издают звуки в районе 35-40кГц. Услышите ли вы эти звуки на записи? Как ни странно да, но ниже в спектре, чем вы ожидаете. Это алиасинг.

Мы помним, что для кодировки волны n частоты, нам нужно использовать семпл рейт частотой (n * 2). Так, для кодировки звуков, издаваемых летучими мышами, нам потребовался бы семпл рейт в 70-80кГц, тогда бы мы смогли семплировать каждый цикл волны, но у нас установлен рейт 44.1 кГц и вот, что мы имеем:

красный цвет — крик летучий мыши; синиц — то как кодируется сигнал

Из за невыполнения условий, которые выдвинул шведский учёный Найквист, мы кодируем волну лишь однажды за цикл и таким образом получаем более длинную волну, а значит более низкую частоту, а значит, вполне возможно, слышимую человеческому уху частоту. Жесть как жёстко!

Решение?

Именно поэтому все конвертеры оборудованы фильтром высоких частот.

примерно так работает фильтр высоких частот в конвертере

Столько радикальный срез неизбежно скажется на информации в диапазоне 17-20кГц, который регистрируется человеческим ухом, именно поэтому нижняя планка семпл рейта — не 40кГц(ПОМНИТЕ ЭТОТ ВОПРОС??), как можно было бы ожидать, а 44.1. чтобы дать ещё чуть-чуть частотного запаса для фильтра и минимизировать его эффект на информацию до 20кГц.

Но какие можно сделать из всего этого выводы?

Увеличение частоты дискретизации, вопреки бытующему мнению, НЕ увеличивает точность конвертации сигнала и НЕ приближает цифру к аналогу. Найквист доказал, что конвертеру достаточно всего лишь двух семплов одного цикла волны, чтобы дорисовать её. Увеличение семпл рейта лишь увеличивает диапазон записи сигналов. Если вы слышите или видите, как с высоким семпл рейтом низкие частоты становятся более плавные, а волна прорисовывается чётче — вы точно обманываете себя.
Существует мнение, что верхние частоты в исходниках записанных в 44.1 или 48 более заперты/ более тусклы, чем при 88кГц. Теоретически, это может зависеть от конкретной модели конвертера и свидетельствовать исключительно о проблемах проектировки/сборки. В остальных случаях — это чистой воды плацебо.
Помимо вышесказанного, увеличение семпл рейта, неизбежно увеличивает вес файлов и сильнее нагружает CPU компьютера, а это, как известно, ценнейший ресурс.
Есть мнение, что некоторые плагины работают лучше в высоком семпл рейте. И это действительно так! Именно поэтому многие из них оснащены технологией оверсемплинга, они сами меняют частоту дискретизации сигнала для его обработки и возвращают в исходном виде. Вам ненужно об этом волноваться. Волнуйтесь, лучше, о несменяемости власти в стране, например.
Самое (и, наверное, единственное) неоспоримое преимуществ высокого семпл рейта заключается в том, что деля каждую секунду сигнала на бо́льшее количество семплов, мы получаем больше точек для размещения и воспроизведения записи, то есть более правильно размещённую во времени партию. Впрочем, речь идёт о таких малых значениях, что разницу достаточно сложно уловить.