Добавить в корзинуПозвонить
Найти в Дзене
НЕКОД

Датасеты и машинное обучение

Когда начинаешь свой путь в освоение инструментов машинного обучения/анализа данных не понятно, где взять данные. Давайте решим эту проблему. 1. Датасеты sklearn Для начала необходимо установить библиотеку scikit-learn c помощью команды: pip install scikit-learn. С помощью нее мы можем получить данные для анализа sklearn.datasets.[name_of_library]. Еще одна полезная функция sklearn, это разделение датасета на тренировочную и тестовую выборку. from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y,stratify=y,test_size=0.25,shuffle=True) 2. UCI dataset На данном сайте можно найти множество датасетов для тренировки. (смахните изображение) 3. Сбор данных Увы, как бы нам не хотелось, некоторые данные для анализа придется получать самим. Для этого используют библиотеки: selenium, useragent, bs4,requests - чтобы выполнить запрос. pip install selenium - эта библиотека, позволяет создать эмулятор действий пользователя, например: когда м
Оглавление

Когда начинаешь свой путь в освоение инструментов машинного обучения/анализа данных не понятно, где взять данные. Давайте решим эту проблему.

Красивая картинка
Красивая картинка

1. Датасеты sklearn

Для начала необходимо установить библиотеку scikit-learn c помощью команды: pip install scikit-learn.

С помощью нее мы можем получить данные для анализа sklearn.datasets.[name_of_library].

Еще одна полезная функция sklearn, это разделение датасета на тренировочную и тестовую выборку.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y,stratify=y,test_size=0.25,shuffle=True)

2. UCI dataset

На данном сайте можно найти множество датасетов для тренировки. (смахните изображение)

3. Сбор данных

Увы, как бы нам не хотелось, некоторые данные для анализа придется получать самим. Для этого используют библиотеки: selenium, useragent, bs4,requests - чтобы выполнить запрос.

pip install selenium - эта библиотека, позволяет создать эмулятор действий пользователя, например: когда мы парсим hh, необходимо зайти в аккаунт и перейти на определенную вкладку и только после это начать сбор информации. Хочу заметить, что можно работать с selenium'ом и без графического интерфейса достаточно прописать:

from selenium import

webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument("--no-sandbox") chrome_options.add_argument("--headless")

chrome_options.add_argument("--disable-gpu")

browser = webdriver.Chrome(options=chrome_options)

pip install beautifulsoup4 - получение информации с html

pip install fake-useragent - изменение видимости устройства в сети для сайта

____________________________________________________________________________________

Если у вас есть какие нибудь другие источники датасетов обязательно поделитесь:D Надеюсь статья вам понравилась или хотя бы была полезна. Если не сложно подпишитесь, это помогает развивать и канал и развиваться самому)

Приятный бонус статистика всех матчей НХЛ:

Статистика матчей НХЛ с 2014

P.S. Если у вас возникли проблемы с кодом или есть интересный проект обязательно пишите в комментариях, обязательно попытаюсь помочь :D