10,2 тыс подписчиков
🔊 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models
Сhat & pretrained large audio language model proposed by Alibaba Cloud.
Qwen-Audio (Qwen Large Audio Language Model) - это мультимодальная версия серии больших моделей Qwen (аббревиатура Tongyi Qianwen), предложенная компанией Alibaba Cloud.
Qwen-Audio принимает на вход различные звуки (человеческую речь, естественные звуки, музыку и песни) и текст, а на выходе выдает текст. Функции Qwen-Audio включают в себя:
▪Фундаментальные аудиомодели: Qwen-Audio - это фундаментальная многозадачная аудио-языковая модель, поддерживающая различные задачи, языки и типы аудио, выступающая в качестве универсальной модели понимания аудио.
▪Qwen-Audio-Chat позволяет вести полноценные диалоги .
Многозадачная система обучения для всех типов аудиозаписей. Модель включает в себя более 30 задач, и обширные эксперименты показывают, что модель демонстрирует высокую производительность.
▪Результаты экспериментов показывают, что Qwen-Audio достигает впечатляющей производительности в различных эталонных задачах, не требуя тонкой настройки под конкретную задачу, и превосходит свои аналоги. В частности, Qwen-Audio достигает лучших результатов на тестовых наборах Aishell1, cochlscene, ClothoAQA и VocalSound.
▪Гибкий многозадачный чат из аудио- и текстового ввода: Qwen-Audio поддерживает анализ нескольких аудиофайлов, понимание и осмысление звука, восприятие музыки и использование инструментов для редактирования речи.
🐱 Github: https://github.com/qwenlm/qwen-audio
📕 Paper: https://arxiv.org/abs/2311.07919v1
1 минута
15 ноября 2023