318 читали · 1 год назад
Подготовка диалоговых датасетов для рекуррентной нейросети на Python
1)Первое, что нужно сделать это найти нужный нам датасет диалогов. Есть сайт где можно найти множество любых датасетов - это Hugging Face 2)На главной странице в правом верхнем углу будет Datasets("Датасеты") жмём на неё на этой вкладке будут датасеты для разных нейросетей , но нам нужен датасет диалогов , поэтому слева в фильтрах выбираем Conversational("Разговорный, диалоговый") там будут разные языки , но если вы хотите выбрать нужный вам язык , то просто в фильтрах добавьте тот язык, который вам будет нужен. После скачивания датасета на компьютер надо перенести данные из нейросети я выбрал...
1965 читали · 4 года назад
Предобработка данных. Работа с пропусками. Python.
Пропуск это просто отсутствие значения. Это часто встречающееся явление в датасетах. Да, вещь не приятная и ухудшает данные. Но ничего с этим не поделать. Мы можем только с ними поработать и улучшить качество нашего датасета. Есть такая замечательная библиотека в python как pandas. С её помощью мы и будем работать с пропусками. Так же нам понадобится библиотека numpy. Загружаем библиотеки и создаем небольшой датасет с пропусками: Теперь у нас есть настоящий датасет с пропусками. С ним то мы и поработаем...