10,2 тыс подписчиков
🔇 Efficient Large-Scale Audio Tagging
AudioSet pre-trained models ready for downstream training and extraction of audio embeddings.
Трансформеры доминируют в области по работе с адуио и заменили CNN в качестве современной нейросетевой архитектуры.
Трансформеры отлично справляются с огромными аудио датасетами и подходят для создания мощных предварительно обученных моделей.
Однако трансформеры являются сложными моделями и масштабируются квадратично по отношению к длине данных, что делает их медленными.
В данной модели используются динамические CNN, которые достигают лучшей производительности на задачах разметки аудио данных и хорошо масштабируются, достигая производительности трансформеров и даже превосходя их.
🖥 Github: https://github.com/fschmid56/efficientat
📕 Paper: https://arxiv.org/abs/2310.15648v1
Около минуты
25 октября 2023