Найти в Дзене
Nuances of programming

Разведочный анализ данных в одной строке кода

Источник: Nuances of Programming Разведочный анализ данных (Exploratory Data Analysis, EDA)  —  это выявление скрытой информации в наборе данных. sweetviz  —  библиотека, которая предоставляет важную информацию о наборе данных без написания большого количества кода. Итак, приступим! Сначала установим sweetviz с помощью следующей команды: pip install sweetviz Я использую ноутбук Jupyter в редакторе VS CODE. Вы можете выбрать редактор кода по своему усмотрению. Импортируем sweetviz и библиотеку pandas: Теперь импортируем набор данных. Я использую набор Titanic, с которым вы, возможно, уже сталкивались при изучении МО. Датафрейм выглядит так: Теперь создадим EDA-отчет по набору данных: Анализируем данные с помощью sweetviz, а затем выводим результаты в браузер в виде HTML-страницы (сайта), которая также сохраняется по умолчанию в текущем каталоге. Когда вы запустите указанную выше ячейку, в браузере откроется новая вкладка, содержащая важную информацию о наборе данных. Мы получили всеобъе

Источник: Nuances of Programming

Разведочный анализ данных (Exploratory Data Analysis, EDA)  —  это выявление скрытой информации в наборе данных.

sweetviz  —  библиотека, которая предоставляет важную информацию о наборе данных без написания большого количества кода.

Итак, приступим!

Сначала установим sweetviz с помощью следующей команды:

pip install sweetviz

Я использую ноутбук Jupyter в редакторе VS CODE. Вы можете выбрать редактор кода по своему усмотрению.

Импортируем sweetviz и библиотеку pandas:

-2

Теперь импортируем набор данных. Я использую набор Titanic, с которым вы, возможно, уже сталкивались при изучении МО.

-3

Датафрейм выглядит так:

-4

Теперь создадим EDA-отчет по набору данных:

-5

Анализируем данные с помощью sweetviz, а затем выводим результаты в браузер в виде HTML-страницы (сайта), которая также сохраняется по умолчанию в текущем каталоге.

Когда вы запустите указанную выше ячейку, в браузере откроется новая вкладка, содержащая важную информацию о наборе данных.

-6

Мы получили всеобъемлющую информацию о наборе данных, а также информацию о каждом его столбце.

Если вы щелкнете по любому из столбцов, на боковой панели веб-страницы откроется подробная статистическая информация по нему.

-7

По различным типам столбцов предоставляется большое количество информации. Также можно воспользоваться несколькими видами визуализаций (в зависимости от типа столбца).

Перейдя на вкладку Associations, вы можете создать график матрицы корреляции.

-8

Мы можем выполнить EDA в отношении обучающих и тестовых данных. Разделение на такие наборы  —  важный этап, который оказывает решающее влияние на производительность модели.

Вот так выглядит датафрейм:

-9

Столбец Survived представлен как переменная Y, а остальные столбцы  —  как переменные x. Разделим набор данных на X и y.

-10

Теперь создадим обучающий и тестовый наборы данных из переменных X и y.

-11

Выполним EDA обучающих и тестовых данных, создав отчет по их сравнению.

-12

Ниже представлен вывод, т.е. отчет по сравнению.

-13

Вы можете визуализировать сравнение одного и того же столбца из наборов обучающих и тестовых данных, щелкнув по нему. После этого откроется боковая панель, содержащая детальную информацию.

Sweetviz предоставляет важные сведения о наборе данных, которые можно упустить во время работы с matplotlib, seaborn и другими библиотеками. Подобную информацию важно учитывать перед реализацией задач МО.

Читайте также:

Читайте нас в Telegram, VK

Перевод статьи Fareed Khan: Exploratory Data Analysis (EDA) in a single line of code