Найти тему
StP: звук и тишина

Нейросеть научилась узнавать мелодию по движению музыканта

Фото: pexels.com.
Фото: pexels.com.

Исследователи Массачусетского технологического института создали Music Gesture – нейросеть, которая способна определять звуки отдельных музыкальных инструментов по движениям музыкантов. Она может вычленить отдельные партии даже в общем музыкальном ряду, например, выделить одну конкретную скрипку. Антонио Торралба, профессор МТИ и соавтор исследования, считает, что такая мультисенсорная обработка станет основой искусственного интеллекта, способного и на более трудные задачи.

Работа Music Gesture основана на аналогичном инструменте – PixelPlayer. Он позволял кликать в концертном видео на определенный инструмент, чтобы увеличить или уменьшить его звучание. А обновленная версия PixelPlayer способна различать две скрипки в дуэте, используя данные о ключевых положениях тела. Эту информацию применяют также спортивные комментаторы для отслеживания движений спортсменов.

Для создания и обучения Music Gesture исследователи задействовали синхронизированные аудио-видео-треки. Ранее их использовали для распознавания звуков природы вроде шума моря.

С помощью контекстно-зависимой графовой сети исследователи интегрировали визуальный семантический контекст с динамикой тела и затем создали аудиовизуальную модель слияния, связывающую движения тела с конкретными звуками. Вот подробный видеоотчет об исследовании:

Модели глубокого обучения можно будет использовать и для иных целей. Например, для определения географических координат едущего транспорта. Этот инструмент будет полезен для автомобилей с автопилотом: звуковые трекеры дополнят работу камер и помогут транспорту лучше ориентироваться при плохой видимости.

Также орнитологическая лаборатория Корнелльского университета совместно с Google начала конкурс по созданию алгоритма для распознавания и классификации птичьих голосов.