Найти тему
Пища для мозга.....

Как нейронные сети идентифицируют человека по звуку шагов.

Походка человека очень индивидуальна и может служить биометрическим параметром для идентификации людей на записях камеры. Сравнимые результаты могут быть достигнуты при использовании акустической сигнатуры звуков шагов человека. Это акустическое решение предлагает меньше места для установки и использование экономичных микрофонов по сравнению с визуальной системой. В данном исследовании предлагается метод идентификации человека по звукам шагов. Сначала звуки шагов отделяются от записей микрофона и разделяются на отсчеты по 500 мс. С помощью скользящего окна выборки преобразуются в кепстральные коэффициенты мелкочастотной связи (MFCC). Результат представлен в виде изображения, которое служит входными данными для свёрточной нейронной сети (CNN). Набор данных для обучения и проверки CNN записывается с пятью субъектами в акустической лаборатории DLR. Эти эксперименты идентифицируют общее количество шагов 1125. Проверка CNN показывает минимальный балл F1 0,94 для всех пяти классов и точность 0,98. Метод Grad-CAM применяется для визуализации предыстории своего решения с целью проверки функциональности предлагаемой CNN. Подход, представленный в этом исследовании, позволяет идентифицировать людей по звуку их шагов. Он показывает отличные характеристики с точностью 0,98 и минимальным баллом F1 0,94 для всех пяти классов. Для достижения результатов потребовалось всего два свёрточных и два полностью связанных слоя с 314 тыс. обучаемых параметров. Кроме того, доверие к методу было усилено применением метода Grad-CAM. Изображенные тепловые карты показали, что разработанная система CNN использует области растровых изображений MFCC, которые тесно связаны со звуком шага. Хотя эксперименты проводились в лабораторных условиях, результаты обнадеживают, что этот метод может быть применен в реальных условиях. Для решения проблем, которые могут возникнуть в практическом применении, были рассмотрены две из них: шум и различная обувь. Для обучения и тестирования использовались экспериментальные данные с различным отношением сигнал / шум. При рассмотрении низких значений SNR синтезированная CNN показала поразительную производительность. Влияние различной обуви на результаты классификации показало ограниченность CNN. Один испытуемый идентифицируется с другой обувью с оценкой F1 0,90, что почти идеально. Идентификация другого субъекта не удалась, с F1

-оценка 0,31. Можно сделать вывод, что для правильной классификации CNN необходимо как можно больше различных обучающих образцов обуви. Наконец, можно было показать, что система распознавания изображений CNN может решать проблемы классификации сложных аудиосигналов.

В будущей работе эти результаты будут использованы для сопоставимых задач классификации аудио. Этот документ является предварительным исследованием для дальнейшего развития приложений распознавания в аэрокосмической сфере и исследованиях дорожного движения.

German Aerospace Center (DLR), Lilienthalplatz 7, 38108 Braunschweig, Germany

Наука
7 млн интересуются