Найти в Дзене
10,2 тыс подписчиков

🔇 Efficient Large-Scale Audio Tagging


AudioSet pre-trained models ready for downstream training and extraction of audio embeddings.

Трансформеры доминируют в области по работе с адуио и заменили CNN в качестве современной нейросетевой архитектуры.

Трансформеры отлично справляются с огромными аудио датасетами и подходят для создания мощных предварительно обученных моделей.

Однако трансформеры являются сложными моделями и масштабируются квадратично по отношению к длине данных, что делает их медленными.

В данной модели используются динамические CNN, которые достигают лучшей производительности на задачах разметки аудио данных и хорошо масштабируются, достигая производительности трансформеров и даже превосходя их.




Около минуты