Найти тему
Николай Лазарев

ML-модель Титаник (классика)

В рамках наработки навыка ml, реализовал модель легендарного дата сета Титаник.

Titanic - Machine Learning from Disaster | Kaggle

Понятно, что он простой, и его можно использовать только для тренировки.

В работе были проведены следующие этапы:

  1. Загрузка данных
  2. Исследование дата сета (аналитика выживания по полу, аналитика выживания по возрасту, аналитика выживания по классу пассажиров)
  3. Заполнение пропусков в данных
  4. Выделение новых признаков
  5. Кодирование категориальных признаков и обработка данных
  6. Обучение baseline-модели
  7. показатели полученной модели
  8. Стандартизация данных
  9. Расчёт модели со стандартизацией данных
  10. Кросс-валидация для логистической регрессии
  11. Построение модели на лучших параметрах
  12. Добавление в модель двух новых сгенерированных признаков. Повторный цикл обучения, прогнозирования и оценки.
  13. Дополнительное моделирование - сравнение нескольких моделей, выбор наилучшей для уточненного прогноза. Сравнивались следующие методы: логистическая регрессия, дерево решений, метод k ближайших соседей, метод опорных векторов, наивный байесовский классификатор.
  14. Для выбранной модели - метода ближайших соседей KNN проведена кросс-валидация, подобраны оптимальные параметры.

Выводы

  1. Сработало сравнение различных моделей для выбора вспомогательной модели расчета - метод ближайших соседей KNN. Он показал более высокий результат чем первоначальная модель - логистическая регрессия.
  2. Подбор оптимального параметра, как правило добавляет несколько процентов к точности модели.
  3. Добавленные дамми-переменные также улучшили точность прогноза.
  4. Прогноз на не стандартизированных тестовых данных показал более точный результат.
  5. Основная оценка модели проведена по показателям roc-auc и f1.

Ссылка:

https://github.com/NikLaz25/Different-tasks/blob/main/model_titanic.ipynb