Найти тему
FutureBanking

Как избавить датасаентистов от рутины: опыт автоматизации моделирования в Альфа-Банке

Как одним нажатием кнопки обучить модель, получив на выходе не «чёрный ящик», а готовый инструмент оптимизации реальных бизнес-процессов, рассказывает Валерий Смирнов, руководитель отдела монетизации нейронных сетей, Альфа-Банк.

— Как возникла идея автоматизации моделирования?

В. Смирнов: С 2021 по 2023 год количество ML-моделей, задействованных в бизнес-процессах банка, увеличилось в восемь раз, и сейчас они помогают в решении огромного количества задач: оптимизации процессов привлечения клиентов и различных внутренних процессов (модели геоаналитики, подбора персонала), управления рисками, моделирования жизненного цикла клиентов и пр. При этом многие задачи по-прежнему ждут появления своих моделей.

Этому можно было бы радоваться, если бы не одна проблема: как только мы переводим задачу в термины машинного обучения, начинается бесконечная и однообразная рутина — собираем целевую переменную, берём фичи, хорошо показавшие себя в соседних задачах, выбираем одну из немногочисленных реализаций бустинга и в автоматическом режиме подбираем гиперпараметры. И чтобы масштабировать ML-модели на основную часть бизнес-задач, нужно провести бесконечное множество таких итераций.

При этом нельзя забывать об исследованиях новых источников, обновлениях работающих в проме моделей во избежание их деградации и экспериментах с новыми подходами.
Ситуация становилась критичной, и мы пришли к логичному выводу, что сейчас самое время задуматься об автоматизации процессов внутри банковского Data Science.

— Как вы определили, что момент настал?

В. Смирнов: Для полноценной автоматизации нужна определённая зрелость инфраструктуры. За последние годы у нас:

— появилась единая система исполнения моделей (СИМ);

— организовано единое пространство разработки моделей (Model Development Platform — MDP);

— создан Feature Store — единое пространство для работы и хранения тысяч признаков для ML-моделей.

Количество фичей и источников в Feature Store стремительно растёт: только за прошедший год оно увеличилось в три раза, и сейчас общий счёт перевалил за 10 тыс. Количество моделей в СИМ за этот же период выросло в 15 раз.

— Какие этапы жизни ML-моделей можно автоматизировать?

В. Смирнов: Типичный жизненный цикл модели машинного обучения состоит из четырёх этапов:

— постановка бизнес-задачи;

— подготовка данных;

— моделирование;

— эксплуатация.

Постановку бизнес-задачи мы пока автоматизировать не можем — она находится в зоне ответственности бизнеса и датасаентистов.

В отношении прочих этапов уже наметился прогресс...

Продолжение читайте на https://futurebanking.ru/post/4089