11 подписчиков

Как Сбербанк обрабатывает 2,5 миллиона предсказаний в секунду — и почему это важно для твоей карты

18 февраля18 фев

2 мин

280 тысяч сотрудников, 100+ миллионов клиентов, и каждую секунду системы банка выдают 2,5 миллиона решений с помощью машинного обучения. Одобрить кредит? Заблокировать подозрительную операцию? Предложить кешбэк именно на кофе? За всем этим стоит одна из крупнейших в Европе систем работы с данными. Каждое касание карты к терминалу — это запись. Перевод другу, оплата подписки, снятие наличных, даже неудачная попытка оплаты — всё фиксируется. Добавь сюда действия в мобильном приложении: просмотр баланса, открытие вклада, заявку на кредит. Но банк — это не только карточки. Есть ипотечные договоры, корпоративные счета, страховые полисы. Плюс внешние источники: данные о курсах валют, кредитные истории, информация о компаниях-клиентах. Всё это стекается из разных систем. Часть данных хранится в классических банковских базах типа Oracle. Часть — в быстрых хранилищах вроде Redis, где лежит информация, нужная прямо сейчас: актуальный баланс, лимиты карты. А события — переводы, покупки — летят по

Оглавление

🗄 Откуда берутся данные
⚙️ Как данные попадают в систему
🏗 Где всё это хранится

🗄 Откуда берутся данные

Каждое касание карты к терминалу — это запись. Перевод другу, оплата подписки, снятие наличных, даже неудачная попытка оплаты — всё фиксируется. Добавь сюда действия в мобильном приложении: просмотр баланса, открытие вклада, заявку на кредит.

Но банк — это не только карточки. Есть ипотечные договоры, корпоративные счета, страховые полисы. Плюс внешние источники: данные о курсах валют, кредитные истории, информация о компаниях-клиентах.

Всё это стекается из разных систем. Часть данных хранится в классических банковских базах типа Oracle. Часть — в быстрых хранилищах вроде Redis, где лежит информация, нужная прямо сейчас: актуальный баланс, лимиты карты. А события — переводы, покупки — летят потоком через Apache Kafka, систему, которая умеет передавать миллионы сообщений в секунду без потерь.

⚙️ Как данные попадают в систему

Представь гигантскую сортировочную станцию. С одной стороны заезжают вагоны с сырьём: транзакции из одной системы, заявки из другой, логи из третьей. Форматы разные, качество — тоже.

На станции всё это чистят (убирают дубли, исправляют ошибки), объединяют (связывают клиента со всеми его продуктами) и раскладывают по нужным направлениям. Одни данные едут в хранилище для аналитиков, другие — в систему антифрода, третьи — в рекомендательные алгоритмы.

Всем этим управляет «диспетчер» — в случае Сбера это Apache Airflow и несколько других инструментов. Диспетчер знает: в 3 ночи загрузи вчерашние транзакции, в 6 утра пересчитай рейтинги клиентов, в 8 — обнови дашборды для руководства.

🏗 Где всё это хранится

Обычная база данных — как картотека в регистратуре: отлично находит конкретного пациента, но посчитать средний возраст всех диабетиков за пять лет — замучаешься.

Для таких задач Сбербанк построил один из крупнейших в Европе кластеров Hadoop — это как гигантский склад, где данные разложены так, чтобы тысячи работников могли одновременно считать статистику по своим участкам. Рядом работает Greenplum для сложной аналитики и ClickHouse — когда нужны ответы за доли секунды.

Масштаб? Петабайты данных. Это примерно как хранить полную историю каждого лайка в соцсети, но вместо лайков — финансовые операции за много лет.

📊 Как команды видят данные

Риск-менеджеры смотрят на уровень просрочек по кредитам: растёт ли он, в каких регионах, у каких категорий клиентов. Продакты видят воронку: сколько человек начали оформлять карту в приложении и сколько дошли до конца. Операционщики следят за нагрузкой на отделения: где очереди, где можно сократить персонал.

Для визуализации используют разные инструменты: от Tableau для красивых отчётов руководству до Grafana для технического мониторинга в реальном времени.

💡 Что интересного

Сбер не просто хранит данные — он на них зарабатывает. Те самые 2,5 миллиона предсказаний в секунду — это антифрод, скоринг, персональные предложения. Каждое решение принимается за миллисекунды.

При этом большая часть инфраструктуры — собственная, не облачная. Это редкость для такого масштаба и отдельный вызов: нужны сотни инженеров просто чтобы всё работало.

---

Хотите разобраться, как построить подобную систему под ваш масштаб — без лишнего и с понятным бюджетом? Пишите!

Бизнес и финансы

1,13 млн интересуются