Рассказывает директор Департамента аналитики больших данных Банка "Санкт-Петербург".
Меня порой просят рассказать про какие-то аспекты профессиональной деятельности и обязательно в сценарии «как я чуть не умер», но с happy end.
Одной из таких историй вполне могла бы быть история создания в Банке "Санкт-Петербург" гильдии машинного обучения. Могла бы, но история еще не закончилась, хотя некоторые mile stones уже позитивные.
Активное внедрение технологий машинного обучения в Банке началось буквально пару лет назад. Это не значит, что до этого ML не применялся. Конечно, некоторые классические задачи (например, кредитный скоринг) и раньше решались методами машинного обучения, но пару лет назад было создано отдельное управление, призванное активно внедрять ML и методы прогнозирования в бизнес-процессы Банка.
Так вот, я думаю, как и все, кто ринулся в это направление, мы недооценили сложность решения одной задачи – про полноту и качество данных. То есть мы знали, что с данными плохо, но не знали, насколько и каких усилий будет стоить эту задачу решить. В результате – переход на новую архитектуру работы с данными в широком смысле этого слова, двухлетний проект от сбора, хранения и обработки данных до появления промышленной платформы ML. В процессе - много раз пришлось отвечать на вопрос «зачем это все», ведь утвержденный однажды, проект подвергался актуализации снова и снова.
Сейчас работа идет сразу по нескольким направлениям: и достраивание архитектуры данных (проект на финальной стадии), и создание и применение ML моделей. За эти пару лет мы серьезно продвинулись. Активно развивается инфраструктура и практики работы с данными. Наряду с собственными моделями, мы работаем с партнерами – например, Университет ИТМО серьезно усиливает нашу математическую экспертизу и ускоряет проверку гипотез. Области использования моделей, думаю, классические: борьба с оттоком клиентов – есть семейство моделей, которые не только прогнозируют вероятность оттока, но и подбирают для него оптимальное предложение для удержания; кросс-продажи – аналогичный комплекс моделей и оптимизационная логика поверх них определяет наилучший продукт и наилучший канал для продажи выбранного продукта; всевозможные LookaLike модели выявления клиентов со схожими паттернами для тех или иных целей и многие другие. В общем, все как у всех, но учитывая наши масштабы - мы очень эффективны)
Конечно, мы продолжим движение. Развитие инфраструктуры позволит работать с новыми данными, а данных никогда не бывает много. Плюс обеспечит лучшую полноту и качество данных. Бэклог новых моделей тоже никогда не бывает пустым – и кроме новых прогнозных моделей, хотим использовать симуляционные и оптимизационные модели, которые позволят перейти от предиктивной аналитики (отвечающей на вопрос «что будет?») к аналитике предписывающей (вопрос «что надо сделать, чтобы случилось то, что нужно нам?»), что выглядит достаточно сложным, но очень многообещающим шагом вперед.
А размышляя о том, какие трудности могут ждать в будущем – я все больше прихожу к мысли, что основная сложность останется на Человеке и на его способности интерпретировать данные и принимать решения. Данных становится все больше, и все больше инструментов аналитики. Но вот что я вижу сейчас и что точно будет только усиливаться – это вопрос интерпретации. В итоге, все равно есть Человек, его гипотеза и его вера в правильность вывода.