Найти тему
V_A_N

Pro ... звучок через ю/ру-тьюб [секреты кодирования]

Что можно расслышать через "трубу"? Да ничего! Толком... Речь о нюансах звучания, разумеется ;))) Дело в том, что при загрузке видео на ютюьб, рутьюб и тп желанная аудиодорожка (даже если таковая изначально в хайрезном PCM 24-96) автоматом сжимается с потерями в ААС 16 бит, да ещё и с битрейтом 128.

Вот такая вот не коммуникативная труба;)))

Формат аудио ААС нынче прочно поселился в каждом смартфоне, практически в каждом голосовом сообщении и в каждом видео (аудиодорожка по умолчанию 96 кбит/с). Сжатие в ААС хитрое: выкидываются ещё и составляющие, раздражающие наш слух, и в итоге зачастую у многих возникает ощущение, что пожатый огрызок звучит даже лучше полновесного оригинала.

Но главная фишка ААС в том, что он подобно бульдозеру сглаживает в музыкальных звуках все шероховатости! Полученные в ААС сравниваемые записи (на ту же ленту-кассету), как по мановению волшебной палочки, очень схоже звучат.

Авторы же популярных ютьюб и прочих каналов восторженно умиляются: "Кассета звучит один в один" !!!!!!!!!!!!!!! Особенно продавцы упиваются. Высший пилотаж пускать звук через бумкающие и цикающие колонки - мол, айфон сам всё прекрасно запишет;))) Народ слушает, доверчиво прильнув к "трубе", и ... вынужденно соглашается: различия (на обычный ух) действительно если есть, то минимальны.

С продавцами всем всё понятно... Но неужели блогеры не замечают подвоха? Не слышат разницы, даже прокручивая у себя в исходном аналоговом звучании? Предпочитают фантазировать?)))

Следует признать, что среди ностальгирующих любителей аудиокассет наверняка никто не слышит выше 16 кГц (большинство даже >12 кГц) в силу возрастных изменений слуха. Поэтому ими кромсание ААС 128 самых высоких частот стопудово останется незамеченным.

пляшущий по частоте срез от 16 кГц - верный признак переменного битрейта
пляшущий по частоте срез от 16 кГц - верный признак переменного битрейта

Ну а с верхними средними частотами (4-8 кГц) то как? Тоже уже туго?)))))

Как и предшественник Мр3, современный ААС основан на психоакустической модели слухового восприятия, о чём очень мало открытой инфы.

Advanced Audio Coding — Википедия
"AAC более подходит для кодирования аудио с потоком сложных импульсов и прямоугольных сигналов, чем MP3."

Так, зарубили сие на носу. Но в чём суть?

Читнём-ка:

Большая эффективность кодирования для стационарных сигналов (AAC использует блочный размер 1024 или 960 выборок, что позволяет более эффективное кодирование, чем блоки из 576 выборок в MP3);
Более высокая точность кодирования для переходных сигналов (AAC использует блочный размер 128 или 120 выборок, что позволяет более точное кодирование, чем блоки из 192 выборок в MP3);

Стоп! Получается, кодер ААС как-то разделяет стационарные участки и переходные, варьируя размер выборки при этом ? А как опосля склеивает кусочки во времени? М-да... На поверку слух человека очень многое прощает.

Функция, недавно встроенная в MPEG-4 General Audio, т.е. недоступная в MPEG-2 AAC, называется перцепционным замещением шума (Perceptual Noise Substitution — PNS). Целью этой функции является дополнительная оптимизация битрейтовой производительности AAC на низких битрейтах. Техника PNS основана на том наблюдении, что "один шум звучит так же, как и другой". Это означает, что фактическая мелкая структура шумового сигнала незаметна в субъективном восприятии такого сигнала. Следовательно, вместо передачи реальных спектральных компонент шумового сигнала, поток данных только сообщает о том, что эта частотная область похожа на шумовую, и дает некоторую дополнительную информацию о полной мощности в этом диапазоне. PNS может быть переключено на основу цены деления диапазона, так что даже если присутствуют некоторые спектральные области со структурой шума, PNS можно использовать для сохранения битов. В декодере случайно сгенерированный шум будет вставлен в подходящую спектральную область в соответствие с уровнем мощности, который получен в потоке данных. Из характеристики, представленной выше, очевидно, что большинство запрашиваемых задач в контексте PNS состоят не в том, чтобы записывать соответствующую информацию в поток данных, а в том, чтобы достоверно определять, какие спектральные области могут быть трактованы как шумовые, и таким образом могут быть закодированы с использованием PNS без сильных искажений.
https://audiocoding.cc/formats/aac/

Между прочим, ААС поддерживает частоты дискретизации от 8 до 96 кГц, но в "трубах" для простых смертных (у кого не премиум) выше 48 кГц ни-ни!!! Мгновенный ресэмплинг на входе без предупреждения!

Более того, разные браузеры и даже флэш плееры по разному декодируют ААС из "трубы". Тут кто в лес кто по дрова.

Low Complexity (дословно низкая сложность) является наиболее широко распространённым профилем в AAC кодеках. Его популярность высока из-за низких требований к системным ресурсам (процессору и оперативной памяти). Многие современные устройства могут воспроизводить AAC / MP4 файлы, сжатые с использованием этого профиля.
С помощью этого профиля вполне можно сжать аудио поток с битрейтом 80-96 kbps / стерео, он достаточно эффективен для достижения хорошего качества звука на этих настройках. Дальнейшее понижение битрейта — забота других профилей (например HE-AAC, Main или LTP). Они позволяют повысить качество на низких битрейтах, но более требовательны к вычислительным ресурсам.

Лет десять назад труба кодировала аудио либо в Vorbis VBR 192, либо ААС 128/256, либо, прости Господи, в Мр3, в зависимости от разрешения видео (720р - рубеж) и т.п.

качество Vorbis VBR 192 и FhG AAC CBR 256 находится примерно на одном уровне, однако ввиду специфических искажений Vorbis на транзиентах (обнаружено в ABX на семплах tiesto-do_you_feel_me и tydi-meet_me_in_kyoto), я бы всё-таки отдал предпочтение AAC.

А что сейчас?

Для проверки на вшивость забацаем-ка тестовое видео cо скользящим чистым тоном от 20 Гц до 40 кГц и зашлём-ка в трубу (просьба у себя уменьшить громкость на спипе под 0 дБ, что в конце):

-2

"Труба" очень долго жевала сего засланного казачка. Видать, нейронка напрягла все свои нейроны, проверяя свип на авторские права.

До 20 кГц "труба" дотянула, ожидаемо перегнав WAV 96 кГц в ААС 48 кГц и выкинув выше все частотки, заодно скруглив фильтром с ~18 кГц. Но откуда взялось булькание и присвистывание??? Исходный спип льётся ровнёхонько плавненько;)))

Глянем-ка, что скажет-покажет родненький рутьюб:

https://rutube.ru/video/f05bd335ec2120cb2b5ddf6c2680d5fb/

Час от часу не легче!

-3

Дырки в АЧХ и общий крындец выше 12.5 кГц !!!!!!! Понятно, что свип - сигнал синтетический, но покамест для проверки частотки ничего лучше не придумали.

Дзен подошёл к вопросу кардинально, обрубив часотоку выше 15 кГц (с хвостиком), зато без фокусов с "чёрными" дырами:

-4

Получается, каждый раздавальщик видео по своему экономит на аудио.

То, что "труба" использует свою разновидность кодека ААС (со своими тараканами) - не новость. Но рутьюб, мягко говоря, озадачил.

Так что без выложенных отдельно сэмплов прослушивание через "трубу" и "дырку от бублика" - занятие так себе. Сравнить первом приближении звучание акустических систем в (при грамотной записи через микрофоны), или изданий винила ещё куда ни шло. Ну и расслышать откровенные аудио косяки чего либо. А вот выявить тонкую разницу в звучании разных лент-кассет после калибровки, усилителей и тд - "это вряд ли!" (С)

PS

Разумеется, следует еще проверить на заковыристой музыке.

[продолжение следует]

======================================================