10,3 тыс подписчиков
🗣💭 Speech Wikimedia: A 77 Language Multilingual Speech Dataset
Speech-wikimedia - это общедоступная компиляция аудиозаписей с транскрипциями, взятых из Wikimedia. Она включает 1780 часов (195 ГБ) транскрибированной речи с лицензией CC-BY-SA из различных источников и дикторов на 77 различных языках.
from datasets import load_dataset
dataset = load_dataset("MLCommons/speech-wikimedia")
📌Статья: https://arxiv.org/abs/2308.15710v1
⭐️ Dataset: https://paperswithcode.com/dataset/voxpopuli
Около минуты
31 августа 2023