9852 подписчика

⚡️ Датасет для детекции речи размером более 150 тысяч часов на множестве языков

🟡На днях в публичный доступ выложили гигантский датасет для детекции речи (voice activity detection).

🟡Датасет содержит порядка 150 тысяч часов аудио более чем на 6000 диалектах. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

🟡Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Пользуйтесь, самое то для задач NLP и всего такого

📎 Github

@machinelearning

Около минуты

15 апреля