Найти в Дзене
РобоТяш

Сопоставление имитации человеческого голоса с пением птиц: Продолжение

Вместе взятые, эти результаты показывают, что МФКК полезны для определения голосовой стратегии имитации пения птиц. Они не оказались полезными для классификации имитируемых видов, но может быть больше информации в более высоком пространственном представлении этого пространства, в других условиях для анализа или в других спектральных особенностях. Эти результаты согласуются с предыдущими исследованиями по вокальным имитациям основных слуховых функций и неголокальных звуков, показывая, что вокальная имитация выходит за рамки простой мимикрии, поскольку функции адаптированы к голосовым способностям человека. Хотя спектральный анализ не представляется полезным для сопоставления песен птиц и имитаций, имитация кластеризации по стратегии может оказаться полезной, если различные методы сопоставления окажутся более полезными для различных стратегий. Временной анализ и результаты В других областях вокальной имитации люди достаточно точно воспроизводят ритмическую или относительную временную
Оглавление

Вместе взятые, эти результаты показывают, что МФКК полезны для определения голосовой стратегии имитации пения птиц. Они не оказались полезными для классификации имитируемых видов, но может быть больше информации в более высоком пространственном представлении этого пространства, в других условиях для анализа или в других спектральных особенностях. Эти результаты согласуются с предыдущими исследованиями по вокальным имитациям основных слуховых функций и неголокальных звуков, показывая, что вокальная имитация выходит за рамки простой мимикрии, поскольку функции адаптированы к голосовым способностям человека. Хотя спектральный анализ не представляется полезным для сопоставления песен птиц и имитаций, имитация кластеризации по стратегии может оказаться полезной, если различные методы сопоставления окажутся более полезными для различных стратегий.
https://cdn.pixabay.com/photo/2017/02/07/16/47/kingfisher-2046453_960_720.jpg
https://cdn.pixabay.com/photo/2017/02/07/16/47/kingfisher-2046453_960_720.jpg

Временной анализ и результаты

В других областях вокальной имитации люди достаточно точно воспроизводят ритмическую или относительную временную структуру аудиопоследовательности. Поэтому было исследовано, может ли простая временная особенность - количество звуковых событий - быть полезной для сопоставления имитации пения птиц. Для подсчета звуковых событий использовался следующий метод:

1. В качестве шага предварительной обработки для подавления фонового шума и усиления фонового шума, использовалось нормирование энергии на канал, что привело к спектрограммообразному представлению звука.

2. Рассчитано приблизительное отношение сигнал/шум (SNR) для каждой точки времени путем вычитания мощности минимальной частоты из бин максимальной частоты, деления на медиану 3/6 Proc. 54 бин частоты, разделение на среднюю 3/6 Proc, давая SN сглаживая кривую 1 м, интервала от 0 до 50 A по кривой R.

3. Было проведено голосовое обнаружение активности с начальным порогом пика на SNR 0.45, а затем последовали кривой SNR в обоих направлениях, где он пересек порог активности 0.2. Эти два пересечения были приняты в качестве времени начала и смещения для каждой обнаруженной звуковой активности.

4. Количество звуковых событий, посчитано как количество сегментных съемок.

Затем, визуализировали связь между количеством звуковых событий в стимулах и их имитацией; они примерно соответствуют друг другу. Тем не менее, наблюдалась тенденция к имитации завышения количества низких стимулов и занижения количества высоких стимулов. Кроме того, существует больше отклонений выше нуля, чем ниже нуля, что наводит на мысль о том, что участники чаще резко переполняют, чем недооценивают истинное число мероприятий в рамках стимулов.

Соответствие между количеством стимулов и их имитацией указывает на то, что количество звуковых событий может быть полезным для приведения имитации в соответствие с конкретным случаем подражания пению птиц. Эти результаты также указывают на то, что метод обнаружения голосовой активности работает выше случая, так как существует большая разница в модальностях (птица против человека), но все еще существует положительная корреляция между модальностями.
https://cdn.pixabay.com/photo/2017/08/06/08/03/people-2590106_960_720.jpg
https://cdn.pixabay.com/photo/2017/08/06/08/03/people-2590106_960_720.jpg

В будущем эту методику можно было бы более эффективно оценивать с помощью сегментированного вручную аудиосигнала в качестве исходной информации, а затем на основе анализа можно было бы сделать более уверенные выводы. Используемые параметры хорошо зарекомендовали себя на основе визуального контроля, но могут быть оптимизированы и в будущем.

Спектрально-временной анализ и результаты

Затем, рассмотрена проблема, используя спектрально-временную информацию в виде классов контуров шага. Классификация контуров использовалась в музыкальном анализе и в поиске музыкальной информации. Здесь было заимствованы аспекты нескольких методов, оценивая контур шага с помощью полинома, подходящего для временного ряда шага, классифицируя контур шага путем квантования пространства, определенного полиномами, а затем сравнивая контуры стимулов и имитации с помощью Levenshtein distance, Lemston, 2000 (например).

Как отмечалось в разделе о спектральном анализе, участники использовали различные имитационные стратегии. Некоторые стратегии не имеют заметной высоты тона (например, имитация шумных или ударных вокализаций). Таким образом, для этого анализа, было решено ограничить исследование четырьмя видами птиц (скорбящий голубь, сора, воробей белобьиный и северный кардинал) и шестью участниками, которые показали наиболее высокие показатели свиста. В результате количество имитаций сократилось до 240.

Для выделения контура шага из каждого активного участка, применили алгоритм оценки фундаментальной частоты. Этот алгоритм заключается в локализации для каждого кадра в рамках одной энергетической нормализованной PCEN спектрограммы, высокочастотного расплава с наибольшей амплитудой. Основываясь на предварительном анализе, эта простая процедура оказалась более надежной для октавных ошибок, чем хорошо известные алгоритмы временной области.

ЗАКЛЮЧЕНИЕ

Целью данного исследования было изучение спектральных, временных и спектральных методов сравнения пения птиц и имитации человека.

Спектрального пространства МФБИК было недостаточно для того, чтобы выйти за рамки имитационной стратегии классификации. Временной анализ показал, что количество событий примерно соответствует количеству подражаний оригинальной песне птиц. Однако наиболее многообещающие результаты были получены с последующим спектрально-временным анализом, в котором использовался контур мелодии для подбора имитации пения птиц. Вместе взятые, эти результаты показывают, что проблема поиска по имитации пения птиц больше похожа на проблему распознавания мелодий, чем на проблему распознавания речи. Это позволяет предположить, что эту проблему можно решить, используя устоявшиеся методы поиска музыкальной информации для классификации по запросу или имитации, и в будущем работа будет вестись по этим направлениям.

https://cdn.pixabay.com/photo/2019/09/29/22/06/light-bulb-4514505_960_720.jpg
https://cdn.pixabay.com/photo/2019/09/29/22/06/light-bulb-4514505_960_720.jpg