Найти в Дзене
РобоТяш

Сопоставление имитации человеческого голоса с пением птиц: Исследовательский анализ

ВВЕДЕНИЕ Люди часто находят птичьи звуки красивыми и интересными, и естественно склонными имитировать их. Мы можем найти имитации птиц в различных культурных контекстах, таких как музыка и наблюдение за птицами. Эти имитации охватывают весь семиотический диапазон от вербального описания до стенографической копии, от мнемоники, ономатопеи, свиста и инструментального инструмента. Наличие аппаратного соответствия между человеческим и птичьим звуками, это мультимодальная проблема, для которой не существует хорошо отлаженной вычислительной базы. На сегодняшний день неясно, следует ли рассматривать эту проблему как распознавание речи, как классификацию песен птиц или как извлечение мелодий. Кроме того, различия внутри и между отдельными птицами данного вида, а также внутри и между людьми в их имитационных стратегиях вызывают серьезные вопросы для исследований. Исследования машинного прослушивания имитаций пения птиц человеком могут играть важную роль в зарождающейся области голосовой инт
Оглавление
https://cdn.pixabay.com/photo/2017/08/07/12/06/black-and-white-2603126_960_720.jpg
https://cdn.pixabay.com/photo/2017/08/07/12/06/black-and-white-2603126_960_720.jpg

ВВЕДЕНИЕ

Люди часто находят птичьи звуки красивыми и интересными, и естественно склонными имитировать их. Мы можем найти имитации птиц в различных культурных контекстах, таких как музыка и наблюдение за птицами. Эти имитации охватывают весь семиотический диапазон от вербального описания до стенографической копии, от мнемоники, ономатопеи, свиста и инструментального инструмента.

Наличие аппаратного соответствия между человеческим и птичьим звуками, это мультимодальная проблема, для которой не существует хорошо отлаженной вычислительной базы. На сегодняшний день неясно, следует ли рассматривать эту проблему как распознавание речи, как классификацию песен птиц или как извлечение мелодий. Кроме того, различия внутри и между отдельными птицами данного вида, а также внутри и между людьми в их имитационных стратегиях вызывают серьезные вопросы для исследований.

Исследования машинного прослушивания имитаций пения птиц человеком могут играть важную роль в зарождающейся области голосовой интерактивности между людьми, животными и роботами (VIHAR). Действительно, эта тема, естественно, затрагивает все три агента. В частности, исследуется способность птиц создавать песни, которые передают акустические сигнатуры своего вида;

  • способность людей передавать идентичность своим голосом;
  • способность роботов, объединять песни птиц и человеческий голос в общее метрическое пространство парного сходства.

Растет количество машинных исследований вокальной имитации в других областях, таких как музыкальные инструменты, неголокальные звуки, основные слуховые функции и аудиоконцепции. Однако, как представляется, исследование вокальных имитаций, нечеловеческих вокализаций животных является новым направлением исследований VIHAR.

СБОР ИНФОРМАЦИИ

Подражания.

Подражания были собраны из удобной выборки из 17 участников (20-68 лет, 4 женщины), в том числе 10 с музыкальным образованием и 11 с птичьим стажем. Участники сидели в звукозаписывающей комнате в одиночестве. Им представили запись пения птиц, а затем они сразу же имитировали услышанное. Звук хлопка ознаменовал окончание отрывка из песни птиц и начало периода записи, который длился на 2 секунды дольше, чем данный им трек из песни птиц. Был использовали скрипт MATLAB для демонстрации стимулов и записи имитаций, используя внутренние динамики и микрофон ноутбука. Участники нажали клавишу, чтобы перейти к следующей записи. До сбора данных, был проведен тренировочный раунд с тремя записями песен птиц, сделанными за пределами набора данных. Участникам было сказано, что они могут подражать любым способом, какой пожелают.

https://pixabay.com/ru/photos/смеситель-dj-контроллер-кнопки-4197733/
https://pixabay.com/ru/photos/смеситель-dj-контроллер-кнопки-4197733/

Для получения "чистых" отрывков песен птиц, пригодных для имитации, были использованы Sonic Visualizer (Cannam et al., 2010), чтобы вручную аннотировать отрывки, которые:

  • имели относительно высокое отношение сигнал/шум
  • содержали песни целевых видов
  • длились около 2-10 секунд.

Из каждого из 10 видов, случайным образом отобрали 10 записей, а затем выбрали самый длинный отрывок в каждой из этих записей для использования в качестве стимула для имитации, что составило 10 × 10 = 100 стимулов за испытание.

ИЗУЧЕНИЕ ДАННЫХ

Спектральный анализ и результаты

Если цель в этом проблемном пространстве - сопоставление имитации человека с песней имитируемых птиц, промежуточной целью может быть сопоставление имитации с категорией вида. В предыдущих исследованиях Капур и др. (2004) успешно классифицировали имитацию инструментов человеком (в битбоксинге), используя пространство признаков сепстральных коэффициентов расплава (MFCCs). В основных терминах MFCC измеряют общую форму спектра акустической энергии по одной и той же шкале частот, воспринимаемой одинаково. Эта функция обычно используется для распознавания речи и обработки музыки. Цель данного раздела заключалась в визуальном изучении делимости видов на пространстве МФБИК, чтобы выяснить, могут ли такие признаки быть полезны для классификации видов.

Для каждой имитации, было определено местоположение двух кадров спектрограммы с наибольшей энергией и рассчитали их 12 МФКК. В результате получился набор данных о векторах МФКК, который ровно в два раза превышает общее число имитаций. Для визуализации того, насколько хорошо видовой кластер в пространстве МФБИК, был использован анализ основных компонентов (АОВ), чтобы уменьшить размеры с 12 до 2.

РСА группирует размеры в линейные комбинации (здесь МФККк), которые максимально коррелируют, при этом минимизируя корреляцию между группировками (т.е. основные компоненты, персональные компьютеры). PCA был выполнен с использованием полного разложения сингулярного значения со стандартным растворителем LAPACK, без вращения. Первые два ПК объяснили, соответственно, 30% и 24% дисперсии во всем пространстве 12-МФКК.

В пространстве этих двух ПК, виды похоже, пересекаются друг с другом, поэтому данная особенность не выглядит многообещающей для классификации видов. Исключение составляет траурный голубь, имитация которого менее распространена. Этот вид, возможно, вызывал менее вариативные имитации, потому что его песня медленная, низкочастотная, запоминающаяся и поэтому может быть легче имитироваться.

Затем была рассмотрена, какая еще информация может быть получена в этом пространстве возможностей. Во-первых, были визуализированы участники; хотя участники не обладают поразительной сепарабельностью, они, похоже, обладают большей сепарабельностью, чем виды. Далее для того, чтобы определить более простое объяснение этим двум компонентам, проведена k-средства кластеризации имитаций.

https://cdn.pixabay.com/photo/2015/07/30/17/24/audience-868074_960_720.jpg
https://cdn.pixabay.com/photo/2015/07/30/17/24/audience-868074_960_720.jpg

Продолжение в следующей части!