Найти в Дзене
MLinside

Учимся на практике: решаем реальные ML-задачки

С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях. Восьмая задача: предсказание бот или человек Что нужно сделать: Предсказать по статистике комментария и аккаунта сделавшего его бот это или человек Как можно сделать: Данные можно взять на Kaggle: https://www.kaggle.com/datasets/nudratabbas/the-dead-internet-theory-reddit-bot-vs-human
Пример ноутбука (с случайными пропусками строк): https://colab.research.google.com/drive/1HUk8PuKKzueeyTh9Vt8nHT1u16Xtetft?usp=sharing
Готовы попробовать? Делитесь своими результатами в комментариях. Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside

С вами рубрика #петпроект_MLinside и тут мы публикуем задачи из реальных проектов, чтобы лучше запомнить теорию. Плюс, упоминание об этом можно включить в портфолио, что определенно поможет вам на собеседованиях.

Восьмая задача: предсказание бот или человек

Что нужно сделать: Предсказать по статистике комментария и аккаунта сделавшего его бот это или человек

Как можно сделать:

  • ️Закодировать категориальные переменные (например, OHE или target encoding)
  • ️Обучить модель: линейную регрессию, случайный лес, разные бустинги
  • ️Определить важность признаков, например, через SHAP
  • ️Сделать разбиение по категории и сделать сравнение между ними

Данные можно взять на Kaggle: https://www.kaggle.com/datasets/nudratabbas/the-dead-internet-theory-reddit-bot-vs-human
Пример ноутбука (с случайными пропусками строк):
https://colab.research.google.com/drive/1HUk8PuKKzueeyTh9Vt8nHT1u16Xtetft?usp=sharing

Готовы попробовать? Делитесь своими результатами в комментариях.

Все посты этой рубрики можно посмотреть по тэгу: #петпроект_MLinside