Найти в Дзене
обработка данных

обработка данных

Предобработка данных, Pandas и не только
подборка · 13 материалов
2 года назад
Наглядный способ визуализации разницы в двух таблицах
Рассмотрим, простой метод получения разницы в двух датафреймах. Он идеально подойдет, когда надо убедиться в правильности примененных к таблице преобразований. Создадим демонстрационный датасет: Создадим копию таблицы и внесем некоторые изменения: Теперь воспользуемся методом compare: С параметрами по умолчанию compare показывает только строки и колонки с различающимися значениями. При этом для каждого столбца слева (self) указывается значение первого датафрейма в заданной строке, а справа (other) - второго...
2 года назад
Функциональный трансформер, как создавать и когда использовать
Функциональная трансформация поможет быстро создать преобразование колонок для пайплайна без сохранения состояния (создание других описывал здесь). Эта возможность реализована в классе FunctionTransformer из модуля sklearn.preprocessing. Например, это могут быть преобразования для создания цикличных признаков (из месяца, часа как здесь) или для извлечения слов из текста, его длины или других характеристик. Создадим демонстрационный набор из температур по месяцам и сделаем из месяца цикличный признак...
2 года назад
Библиотека missingno для исследования пропусков
Рассмотрим возможности инструмента missingno для изучения пропусков в датафрейме. Сначала сгенерируем тренировочный датасет: matrix Функция matrix строит изображение, по которому можно визуально определить расположение пропусков в строках. Линия справа отражает форму заполненности, отмечая строки с минимальным и максимальным количеством заполнений: bar bar - это визуализация пропусков по колонкам. Шкала слева отображает долю наблюдений, справа - их абсолютное количество, а сверху - количество заполненных...
2 года назад
Анатомия пайплайнов, рассеиваем туман над сложной структурой данных
Оттого что мысли мои не облекаются в слова, чаще всего они остаются хлопьями тумана. Они принимают смутные, причудливые формы, набегают одна на другую, и я тотчас их забываю (Жан-Поль Сартр). Разберем ключевые свойства sklearn пайплайна (pipeline) и приемы их модификации. Сначала создадим демонстрационный датафрейм: Теперь определим пайплайн: Обращаемся к элементам пайплайна Это можно сделать через свойство named_steps: Также к составляющим пайплайна можно обратиться как к словарю, в качестве ключа...
3261 читали · 2 года назад
Передовой способ вычисления корреляции с библиотекой phik
В мире все взаимосвязано и мы — часть этого круговорота. А потому в Мировом Древе нигде не может быть одиноко торчащей ветки: где-то и она связана с какой-то другой ветвью (Брайанна Рид). Раскрываемый в статье метод более универсален, чем многие другие, так как позволяется вычислять взаимосвязи между различными типами признаков (категориальными, непрерывными и их комбинациями), в нем используются передовые статистические методики и его легко применить с библиотекой phik. Суть метода базируется на...
117 читали · 2 года назад
Корреляция Спирмена, когда полезна и почему о ней надо знать
Осознанность — это восприятие всех деталей происходящего по отдельности и в целом. Когда ты переживаешь их, видишь, понимаешь суть и взаимосвязи (Ольга Нестерова). Самым распространенным способом определения зависимости между признаками является корреляция Пирсона, но она обладает рядом особенностей, в том числе не устойчива к выбросам. В демонстрационных целях рассмотрим корреляцию для двух датафреймов, в которых отличаются только последние строки (используем метод corr, в котором по умолчанию...