Найти в Дзене
10,3 тыс подписчиков

🗣💭 Speech Wikimedia: A 77 Language Multilingual Speech Dataset


Speech-wikimedia - это общедоступная компиляция аудиозаписей с транскрипциями, взятых из Wikimedia. Она включает 1780 часов (195 ГБ) транскрибированной речи с лицензией CC-BY-SA из различных источников и дикторов на 77 различных языках.

from datasets import load_dataset

dataset = load_dataset("MLCommons/speech-wikimedia")




🗣💭 Speech Wikimedia: A 77 Language Multilingual Speech Dataset  Speech-wikimedia - это общедоступная компиляция аудиозаписей с транскрипциями, взятых из Wikimedia.
Около минуты