612 подписчиков

Создание пользовательских преобразователей данных

22 июня 202222 июн 2022

360

1 мин

Рассмотрим, как готовить собственные преобразователи данных (трансформеры) так, чтобы они поддерживались механизмами последовательной обработки, реализованными в библиотеке Scikit-learn. Для демонстрации работы создадим обучающие датафреймы:

Использование трансформатора предполагает его обучение методом fit и запуск методом transform. Они охватывают основной функционал преобразователя и требуют самостоятельной реализации. Такие имена методов нужны для поддержки в инструментах sklearn. Кроме того, для этих же целей реализуйте трансформаторы в виде классов, наследующих TransformerMixin и BaseEstimator из sklearn.base. Это откроет новому классу автоматический доступ к методам fit_transform, get_param, set_param, необходимым для поддержки в пайплайнах, функциях подбора гиперпараметров. Для примера создадим трансформатор преобразования значений категориальных колонок датасета в среднее значение по целевой переменной:

Обучим и применим новый класс к тренировочной выборке:

Выведем созданный словарь для хранения значений категорий и применим класс к валидационной выборке:

Так как мы соблюли правила создания трансформера, его можно встраивать в пайплайны:

и применим пайплайн к валидационному набору: