Найти в Дзене
ТыжПрограммист

Почему мы не узнаем себя в голосовых сообщениях, и зачем мессенджеры сжимают звук

У каждого из нас была такая ситуация, когда мы отправляли голосовое сообщение, а потом, переслушивая его, думали: "Неужели у меня и правда такой голос? Я реально так странно звучу?" Нам кажется, что в записи голос становится каким-то чужим что-ли, писклявым или, наоборот, слишком низким. Почему если записать одно и то же голосовое сообщение в разных мессенджерах, то наш голос звучит по-разному? Почему в одном голос будто чище, а в другом какой-то приглушённый? Как и зачем мессенджеры "портят" наш голос? Почему так происходит? Давайте разбираться. Начнём с главного вопроса, который мучает практически каждого. Вы говорите, слышите себя одним, а в записи, совсем другим. Почему так происходит? Если подумать, то здесь нет никого подвоха, оба голоса настоящие. Просто мы слышим себя иначе, чем окружающие, и этому есть очень логичное объяснение. Когда вы говорите, звук распространяется к вашим ушам двумя путями одновременно. Первый путь по воздуху, как и у всех остальных звуков. Второй путь -
Оглавление

У каждого из нас была такая ситуация, когда мы отправляли голосовое сообщение, а потом, переслушивая его, думали: "Неужели у меня и правда такой голос? Я реально так странно звучу?" Нам кажется, что в записи голос становится каким-то чужим что-ли, писклявым или, наоборот, слишком низким.

Почему если записать одно и то же голосовое сообщение в разных мессенджерах, то наш голос звучит по-разному? Почему в одном голос будто чище, а в другом какой-то приглушённый? Как и зачем мессенджеры "портят" наш голос? Почему так происходит? Давайте разбираться.

Превью
Превью

Почему свой голос в записи кажется чужим

Начнём с главного вопроса, который мучает практически каждого. Вы говорите, слышите себя одним, а в записи, совсем другим. Почему так происходит?

Если подумать, то здесь нет никого подвоха, оба голоса настоящие. Просто мы слышим себя иначе, чем окружающие, и этому есть очень логичное объяснение.

Когда вы говорите, звук распространяется к вашим ушам двумя путями одновременно. Первый путь по воздуху, как и у всех остальных звуков. Второй путь - внутренний.

Когда мы говорим, наши голосовые связки создают вибрации, которые распространяются не только наружу, через рот в воздух, но и внутрь через кости черепа прямо к внутреннему уху. Этот внутренний путь добавляет к звуку низкие частоты, делая голос в нашем восприятии более глубоким, насыщенным, и объёмным.

Сгенерировано ИИ
Сгенерировано ИИ

А в случае с записью, микрофон улавливает только то, что распространяется по воздуху. Из-за этого никаких низких частот, глубины и объема в записи нет и быть не может, поэтому мы слышим свой голос более высоким, тонким, иногда кажущимся нам неприятным (Кстати, думаю было бы интересно, если какой-нибудь мессенджер добавил бы алгоритмы для устранения этих различий, но вряд-ли кто-то будет таким заниматься).

Мы привыкли к своему голосу таким, каким слышим его изнутри, и когда сталкиваемся с записью, мозг испытывает дискомфорт. Кстати, исследования показывают, что люди с высокой самооценкой легче принимают свой голос в записи, а люди с низкой самооценкой могут испытывать дискомфорт, то есть реакция на собственный голос - это ещё и вопрос психологии.

Сгенерировано ИИ
Сгенерировано ИИ

Зачем мессенджеры портят голос сжатием

Это еще одна причина из-за которой мы чувствуем разницу в звучании, даже если мы смирились с тем, что в записи наш голос звучит иначе, все равно в разных приложениях он будет звучать по-разному. И зачем вообще что-то менять, если можно передавать голос таким, какой он есть?

Ответ на удивление прост, голосовые сообщения - это файлы, которые нужно передать через интернет. А интернет, особенно мобильный, не резиновый. Если бы мессенджеры передавали звук без сжатия, каждое голосовое сообщение весило бы в десятки раз больше, загружало сеть и съедало бы ваш трафик, как Дементор положительные эмоции.

Поэтому все мессенджеры используют специальные алгоритмы сжатия, которые упаковывают звук так, чтобы он занимал меньше места, но при этом оставался узнаваемым и разборчивым.

Сгенерировано ИИ
Сгенерировано ИИ

Процесс сжатия голоса можно разделить на несколько этапов:

  • Сначала звук оцифровывается. Микрофон улавливает аналоговый сигнал, и специальный преобразователь превращает его в набор чисел, которые понятны компьютеру.
  • Потом начинается самое интересное, кодирование. Алгоритм анализирует звук и ищет в нём то, что можно выкинуть без серьёзной потери качества. Например, человек не слышит некоторые частоты, если они маскируются более громкими. Вот эти "неважные" детали алгоритм и удаляет.

В итоге мы получаем файл, который может быть в 10-20 раз меньше исходного.
Это как если бы вы пересказывали другу книгу, вы же не будете перечислять каждую букву и каждую запятую? Вы передадите только суть, сюжет и ключевые моменты. Так алгоритмы, передают только главное, отбрасывая то, без чего можно и обойтись. Кстати, такие алгоритмы для сжатия принято называть кодеками.

Сгенерировано ИИ
Сгенерировано ИИ

Самый популярный кодек в современных мессенджерах - Opus. Он используется в самых знакомых нам мессенджерах, а также во многих других приложениях. Его главное преимущество - гибкость. Opus умеет подстраиваться под сеть, если интернет хороший, он передаёт звук качественнее, если плохой, то сжимает сильнее.

Раньше активно использовался AMR - кодек, разработанный специально для мобильных телефонов ещё во времена 2G. Он давал очень сильное сжатие, но качество было, мягко говоря, так себе. Голос в AMR звучит как из старого телефона, плоский и металлический. Сейчас его уже практически не используют.

Есть ещё AAC и MP3, но они больше подходят для музыки, чем для голосовых сообщений (Вы могли видеть надпись AAC, когда подключаете беспроводные наушники к телефону, кстати, на удивление я только сегодня заметил эту деталь).

Сгенерировано ИИ
Сгенерировано ИИ

Почему же качество голоса отличается в разных приложениях

Даже если два разных мессенджера используют Opus, голос в них все равно звучит по-разному и тут есть несколько причин.

  • Настройки кодека. Opus позволяет регулировать множество параметров, битрейт (сколько данных выделять на секунду звука), сложность кодирования, режим (речь или музыка). Разработчики мессенджеров могут выбрать разные настройки. Например, в одном приложении поставят битрейт 16 кбит/с, в другом - 32 кбит/с. Разница в качестве будет заметна.
  • Дополнительная обработка. Некоторые мессенджеры применяют фильтры - подавляют шумы, выравнивают громкость, убирают эхо. Это делается для улучшения восприятия, но может менять тембр голоса.
  • Сторона записи. Качество зависит и от того, на каком устройстве вы записываете. Микрофоны в разных телефонах сильно отличаются, и это тоже влияет на итоговый звук.
Сгенерировано ИИ
Сгенерировано ИИ

Давайте проследим весь путь голосового сообщения.

Вы нажимаете кнопку записи и говорите что-то в микрофон. Микрофон преобразует звук и оцифровывает.

Дальше в дело вступает кодек. Он анализирует полученные данные и упаковывает их, убирая всё лишнее. В результате получается файл, который весит в разы меньше исходного.

Этот файл шифруется (чтобы никто по пути не мог его перехватить) и отправляется на сервер мессенджера, а тот пересылает получателю.

А мессенджер в телефоне получателя с помощью того же кодека превращает цифры обратно в звук. Динамик воспроизводит этот звук и в итоге мы слышим то самое голосовое.

Конечно, можно передавать голос и без сжатия, ведь технически это вполне возможно, но давайте посчитаем. Одна минута несжатого аудио с хорошим качеством весит около 10 мегабайт. А если, к примеру, вы отправили пять таких сообщений, это уже 50 мегабайт. Тут ваш собеседник, если у него не безлимитный интернет, может не обрадоваться таким расходам трафика.

А если сообщений много? Если их отправляют миллионы пользователей каждый день? Серверам мессенджеров пришлось бы хранить петабайты данных. Это колоссальные затраты. Поэтому намного дешевле и логичнее сжимать звук.

Сгенерировано ИИ
Сгенерировано ИИ

Голосовые сообщения стали неотъемлемой частью нашего общения. Они удобны, они эмоциональны, они передают то, что иногда невозможно выразить текстом. И теперь вы знаете, что за каждым таким сообщением скрывается сложный путь, от вибраций голосовых связок, через алгоритмы сжатия, через сервера и обратно, в уши вашего собеседника.

И да, теперь вы понимаете, почему свой голос в записи кажется чужим. Потому что вы слышите только часть того, что обычно слышите,а ещё потому, что кодек убрал всё лишнее, оставив главное - смысл.

Так что в следующий раз, когда отправите голосовое и поморщитесь от своего голоса, вы будите знать, что ваш собеседник слышит ваш голос именно так, и в этом нет ничего такого. Ведь, если он до сих пор с вами общается, значит, всё с вашим голосом в полном порядке.

Пение
3339 интересуются