Найти тему
FutureBanking

Внедрение ML-платформы на базе Open Source: кейс МКБ

Запуск ML-платформы на Open Source позволил за полгода сократить time2market c шести до двух месяцев. По какому принципу осуществлялся выбор платформенного решения и компонентов, с какими подводными камнями пришлось столкнуться в процессе внедрения и каких ещё результатов можно достичь на этом направлении, рассказывает Александр Ошурков, руководитель Big Data МКБ.

— Какие цели ставились при запуске ML-платформы?

А. Ошурков: Основная цель — максимальное сокращение time2market при разработке моделей. Банковские ML-модели, особенно рисковые, «обвешаны» огромным количеством проверок, тестирований на различных контурах и пр., путь до продакшн очень длительный, и на каждое изменение требуется, как правило, не меньше месяца (хотя с точки зрения математики и программирования ничего сложного в этом нет).

Вторая цель — стандартизация работы датасаентистов из разных команд с использованием единой документации. До запуска платформы каждый сотрудник, по сути, занимался некоей самодеятельностью, выстраивая инфраструктуру и локальные процессы на своё усмотрение.

Третья цель — использование возможностей Kubernetes для распределения ресурсов между командами, поскольку расчётные операции, которые запускают датасаентисты, чрезвычайно ресурсоёмки.

— Чем вы руководствовались при выборе платформенного решения?

А. Ошурков: Анализ рынка показал, что представленные на нём российские разработки слишком свежие, мало кем апробированные и — главное — не закрывают все наши потребности. Open Source выглядел намного более привлекательно — прежде всего за счёт бесплатности и отсутствия вендор-лока. Кроме того, большинство популярных компонентов очень хорошо работают с Kubernetes и имеют широкий функционал.

Но тут же обнаружились и ограничения. Каждому компоненту, который мы «привносим» в банк, неизбежно потребуются поддержка, минимальные доработки, интеграции с другими компонентами. И без помощи квалифицированных специалистов здесь не обойтись. Однако по некоторым популярным в мире компонентам экспертиза на нашем рынке полностью отсутствует, найти людей, обладающих нужными навыками, шансов практически не было.

В итоге, путём отсечения «непопулярных» на нашем рынке компонентов и поиска компонентов, уже протестированных и банками, и вендорами, в качестве базы мы выбрали JupyterHub, Airflow и MLflow (плюс несколько мелких). При их выборе использовались два критерия: наличие нужного функционала (необходимое условие) и наличие на рынке успешных внедрений и специалистов (достаточное условие).

— Что нужно было предпринять для успешного запуска платформы?

А. Ошурков: Основа — это инфраструктура. Стартовые действия включают в себя работу по конфигурации кластера, сетевые настройки и конфигурацию общебанковских инструментов разработки (GitLab, Grafana и пр.).

— С момента запуска платформы на Open Source обнаружились ли минусы? Если да, как вы их нивелируете?

А. Ошурков: Ощутимый минус — в работе с компонентами...

Продолжение читайте на https://futurebanking.ru/post/4074