Найти тему

Insight в Машинном обучении простыми словами

Фото: Joseph Barrientos / Unsplash
Фото: Joseph Barrientos / Unsplash

Инсайт (озарение) – это ценность, полученная с помощью анализа, как в ходе Разведочного анализа данных (EDA), так и в ходе обучения Модели (Model) Машинного обучения (ML). Такие открытия, полученные с помощью аналитики, могут быть невероятно мощными стимуляторами развития бизнеса, поскольку позволяют выявлять возможности.

К примеру, при Моделировании оттока (Churn Prediction) можно узнать, какие факторы заставляют пользователей уходить с целевой продающей страницы сайта. Это позволяет людям, принимающим решения, вносить изменения в бизнес-процессы.

Один из лучших способов понять и передать значимую информацию из данных – использовать инструменты, которые помогают визуализировать результаты модели и предоставляют различные способы исследования и понимания ваших данных. Это дает реальную ценность для бизнеса в виде увеличения рентабельности инвестиций в рекламу, более точных прогнозов невозврата кредита и многого другого. Ясность на основе анализа данных позволяет пользователям принимать более обоснованные решения на основе повышенной интерпретируемости модели, позволяя аналитикам и другим пользователям объяснять результаты модели ключевым заинтересованным сторонам.

Инструменты визуализации данных помогают пользователям понять и объяснить выводы из результатов модели машинного обучения. Будь то простые графические представления, такие как облака слов, или более сложные и гибкие инструменты визуализации данных, такие как информационные панели Tableau, эти инструменты упрощают понимание и передачу ценности, раскрытой в модели, и способствуют более эффективному принятию бизнес-решений.

Данные важны, потому что инсайт позволяет пользователям с любым уровнем подготовки понять, что делает модель «за кулисами», что особенно важно, когда речь идет о формализованных отраслях, таких как банковское дело и здравоохранение. Если мы не понимаем, почему модель делает такие выводы, практическая полезность ее ограничена.

Пример. Банк собирает данные о своих клиентах с целью определить, кто готов приобрести кредитный продукт. Для начала импортируем необходимые библиотеки:

-2

Загрузим Датасет (Dataset), содержащий результаты анкетирования клиентов:

-3

Обширный Датафрейм (Dataframe) содержит, помимо прочих, данные о семейном статусе клиента, его кредитной истории и даже длительности телефонного разговора:

-4

Для краткости продемонстрируем обнаружение инсайта на Признаке (Feature) "Длительность [холодного / теплого звонка]". Построим Гистограмму (Histogram) распределения длительности разговора:

-5
-6

А теперь выделим из общей массы записей те, что принесли компании продажу – приобретение кредитного продукта. Для таких записей используется столбец "Доходность": значение в ячейке равно "Присутствует". Методом df.loс() мы фильтруем набор и строим гистограмму для новой Выборки (Sample):

-7
-8

Нетрудно заметить, что максимальное значение координаты Y резко сократилось с ~33000 до ~830, однако инсайт кроется именно в оптимальной длительности разговора: подавляющее большинство продаж выполняется во время звонков, чья длительность не превышает 575 секунд. Клиенты не любят длинные детальные разговоры.

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Автор оригинальной статьи: datarobot.com

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте курсы на Udemy.