10,2 тыс подписчиков
🧳Подборка полезных датасетов для дата саентистов.
1. Airbnb
Этот датасет могут скинуть для интервью — собеседования с задачей провести исследовательский анализ данных и разработать модель машинного обучения.
Полезный набор данных для учащихся. Наименования столбцов этого датасета сначала могут показаться не очень понятными.
Он содержит классы: age, sex, chest pain type (4 вида), resting blood pressure, serum cholestoral in mg/dl, fasting blood sugar > 120 mg/dl, resting electrocardiographic results (values 0,1,2), maximum heart rate achieved, exercise induced angina, oldpeak = ST depression induced by exercise relative to rest, the slope of the peak exercise ST segment, number of major vessels (0–3) colored by flourosopy и т.д.
4. Cars Dataset
Это датасет можно использовать для практики некоторых регрессионных моделей и исследовательского анализа данных. К тому же он разумного размера.
Этот датасет включает в себя профили известных людей прямиком из Википедии.
Этот набор данных содержит миллионы отзывов на продукты Amazon.
Этот набор данных содержит информацию о результатах Олимпийских игр. Каждая строка содержит данные по стране. Дает почувствовать все грани боли от фильтрации данных. Автор статьи изучил библиотеки Python (Numpy и Pandas), используя этот набор данных.
Подойдет для исследовательского анализа данных , моделей машинного обучения (особенно моделей классификации), статистического анализа и практической отработки визуализации данных .
9. Iris Dataset
Еще один широко котируемый набор данных в курсах по Data Science.
Особенно хорош для изучения классификационных моделей.
Может быть очень полезным при анализе и визуализации временных рядов или проблемах, связанных с временными рядами.
11. BBC Text Dataset
Еще один замечательный набор данных для Natural Language Processing.
Этот набор данных содержит информацию о различных типах новостей из архивов BBC. Это большой набор текстовых данных.
12. Cats vs Dogs
Очень часто используется для отработки классификации изображений. Внутри ты найдешь изображения кошек и собак. Датасет хорош для проблем computer vision.
Полезный набор данных для проблем компьютерного зрения. Датасет содержит изображения двух типов рака кожи. Подходит для задач классификации изображений.
Этот набор данных содержит изображения самолетов, автомобилей, кошек, собак, цветов, фруктов, мотоциклов и людей.
2 минуты
12 июля 2023