295 читали · 1 год назад
Подготовка диалоговых датасетов для рекуррентной нейросети на Python
1)Первое, что нужно сделать это найти нужный нам датасет диалогов. Есть сайт где можно найти множество любых датасетов - это Hugging Face 2)На главной странице в правом верхнем углу будет Datasets("Датасеты") жмём на неё на этой вкладке будут датасеты для разных нейросетей , но нам нужен датасет диалогов , поэтому слева в фильтрах выбираем Conversational("Разговорный, диалоговый") там будут разные языки , но если вы хотите выбрать нужный вам язык , то просто в фильтрах добавьте тот язык, который вам будет нужен. После скачивания датасета на компьютер надо перенести данные из нейросети я выбрал...
2 года назад
Как собрать данные для DS-проекта с помощью Python: 3 шага
Источник: Nuances of Programming юбой проект по науке о данных нуждается в данных. Чтобы извлечь их с сайта и создать необходимый набор, используются инструменты веб-скрейпинга. Однако на одном сайте не всегда находятся все нужные данные либо там могут быть несоответствия, из-за которых можно извлечь только часть данных. Так случилось со мной, когда я искал данные о футбольных матчах, проведенных на Чемпионатах мира с 1930 по 2022 год. Некоторые данные были извлечены, но не все. С помощью этого руководства...