9852 подписчика
⚡️ Датасет для детекции речи размером более 150 тысяч часов на множестве языков
🟡На днях в публичный доступ выложили гигантский датасет для детекции речи (voice activity detection).
🟡Датасет содержит порядка 150 тысяч часов аудио более чем на 6000 диалектах. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
🟡Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Пользуйтесь, самое то для задач NLP и всего такого
📎 Github
Около минуты
15 апреля