Найти тему
FutureBanking

Поиск аномалий, анализ текстов: какие задачи решаются с помощью алгоритмов ML при анализе процессов в банке

В Сбере с помощью Process Mining за последние два года было проанализировано множество бизнес-процессов. За это время в банке научились идентифицировать 14 типов неэффективности в процессах и выпустили первую дата-версию «бота», способного самостоятельно провести комплексный анализ бизнес-процессов.

Поговорили с Андреем Бугаенко, исполнительным директором по исследованию данных, о типах задач, которые уже можно решить с помощью машинного обучения, проблемах, с которыми приходилось сталкиваться, и новых направлениях для разработки.

—  Процессов в банке тысячи — как решить, каким из них заниматься в первую очередь? Как определить приоритетные направления для Process Mining (PM)?

А. Бугаенко: При выборе процессов для исследования используем три критерия:

— масштаб процесса (в приоритете массивные);

— наличие цифровых следов (без данных ничего не получится) и уровень цифровизации (чем детальнее логирование данных, тем лучше);

— наличие гипотез, подлежащих проверке (чем их больше на первом этапе, тем лучше).

6 апреля Андрей Бугаенко и другие топовые аналитики, рисковики и Data Scientists из Росбанка, «Открытия», МТС, Райффайзена, ГПБ и других компаний на форуме Data Day расскажут о новейших возможностях работы с данными и о том, как превращать эти данные в деньги. Присоединяйтесь!

— Какие задачи в Process Mining решаются с помощью машинного обучения?

А. Бугаенко: Сейчас для анализа процессов используем Python-библиотеку SberPM (в двух версиях — корпоративная для внутренних пользователей и бесплатная (open source) для внешних) и специализированную платформу SberProcessMining с мощным BI-функционалом.

Все задачи ML в PM, которые мы развиваем, условно можно разделить на пять групп.

1. Автоматический поиск кейсов неэффективности в процессах и аномалий (пожалуй, основное направление)

Конечно же, применяем и
классический подход PM с майнерами (алгоритмы, которые позволяют преобразовать информацию из таблицы/лога данных в графический формат). Мы используем как стандартные наборы дата-майнеров (описанные, например, в книге “Process Mining: Data Science in Action”), так и собственные ноу-хау. В их числе параллельный майнер, который с максимальной чувствительностью выявляет параллельности в процессах, а также ML-майнер, отслеживающий влияние изменений одного этапа на процессы в другом.

Но мы продвинулись дальше.

У нас есть функционал, который позволяет автоматически обнаруживать неэффективности в бизнес-процессах, что экономит время работы аналитика процессов. Основной функционал
«автоинсайтов» включает в себя две модели: одна находит аномалии в метриках процесса (длительность этапов, вероятность, дифференциалы времени и т. д.), вторая анализирует текстовую информацию. Обе модели в случае обнаружения аномалии выставляют специальные флаги, и по комбинации этих флагов мы можем идентифицировать тот или иной тип неэффективности. Сейчас мы умеем идентифицировать 14 типов неэффективности в процессах. Например: разные типы bottleneck, разные типы зацикленности, нестандартизованные этапы и т. д. В ближайшее время мы планируем перейти на одну мультимодальную модель с тремя модальностями: метрики, текст и графовые эмбеддинги...

Продолжение читайте на https://futurebanking.ru/post/4029