За три года, с 2021 по 2023, финансовый эффект Сбера от внедрения AI составил более 800 млрд рублей, при этом удалось добиться значительного сокращения отклонений в работе моделей, избавиться от массы ненужных данных и добиться почти стопроцентного восстановления описаний атрибутов с помощью LLM-моделей. Как банк использует данные для управления процессами, рассказывает Борис Рабинович, CDO Сбербанк.
Правила «Клуба управления данными»
Темпы проникновения супертехнологий в «каждый дом» увеличиваются с каждым годом: на популяризацию домашнего интернета потребовалось около 12 лет, смартфонов — 6 лет, и можно ожидать, что года через три люди будут массово пользоваться генеративными моделями.
Чтобы, с одной стороны, не пропустить полезный рыночный тренд, а с другой — не инвестировать во внедрение AI во все процессы без исключения, в банке были сформулированы пять правил работы с данными и управления ими:
— данные должны быть;
— данным можно доверять;
— мы управляем стоимостью владения данными;
— мы управляем рисками данных;
— мы используем данные с целью монетизации.
Какие выводы мы сделали за три года работы с данными?
Во-первых, развитие технологий AI и рекомендательных систем требует огромного количества данных, поскольку любая дополнительная фича может повысить точность модели на 1–2%.
Во-вторых, для того чтобы обучить наш GigaСhat, как и все прочие крупнейшие LLM-модели, мы задействовали всю структурированную информацию мирового интернета и все доступные качественные данные. Преимущество в развитии AI получит тот, кто лучше научится работать с неструктурированными данными.
В-третьих, сейчас, с учётом объёма киберугроз, критически важно находить новые доверенные источники данных. Есть примеры того, что достаточно провести небольшую инъекцию недостоверных данных для крушения работы LLM-модели.
В-четвёртых, качество работы ИИ-моделей линейно зависит от количества и качества исходных данных. Структурирование, описание, разметка проверки качества данных требуют значительных ресурсов дата-инженеров и аналитиков.
Чем сейчас занят AI на службе у дата-инженеров и аналитиков?
Сейчас AI применяется в различных процессах — от подготовки данных до управления ресурсами — и позволяет решать задачи принципиально иного масштаба без увеличения числа специалистов.
В числе ключевых задач в области data governance:
— описание атрибутов с помощью LLM;
— снижение инцидентов на HDFS;
— синтез данных для задач ИИ;
— управление жизненным циклом данных;
— AI-предобработка данных;
— распределение задач YARN на HDFS;
— AI-мониторинг качества данных.
Снижение инцидентов на HDFS
В хранилище банка размещены сотни терабайт данных, большая часть — в файловой системе HDFS, которая имеет особенность: эффективность её работы снижается при росте числа небольших (менее 128 Мб) файлов. Решением стало...
Продолжение читайте на https://futurebanking.ru/post/4080