Найти тему
Качество данных

Как мы повысили эффективность разработки системы управления качеством данных в 144 раза - реальный кейс

Делали мы как-то первую очередь большого проекта по разработке системы проверки данных на всю страну.

В ходе проекта нужно было разработать определенные правила проверки данных и собственно разработать информационную систему для выполнения этих правил надт терабайтами данных.

Методологи вгрызлись в законы, аналитики написали постановки, программисты написали тысячи строк кода. И были дни, и были месяцы на то…

Были разработаны около 1000 инструкций проверки данных.

Вскипели котлы процессоров и проверка данных началась и будет продолжаться еще много месяцев.

Тем временем началась новая очередь этого большого проекта и в новой серии этого сиквела потребовалась проверка в 5 раз большего количества атрибутов данных. Да со всеми прилагающимися сложностями: многократно вложенные XSD-схемы, специфичный код инструкций и т.п.

А в это время все аналитики да программисты были заняты другими проектами.

И решил один находчивый аналитик использовать всю современную силу генеративных языковых моделей.

Как мы любим делать - быстро и бесплатно. Так вот конечно бесплатные LLM-модели не могли такое съесть. Поэтому вынудили бесплатную языковую модель написать программу на Python, которая написала программы, которые уже анализировали исходные структуры и генерировали необходимые инструкции для проверки данных.

Итого: в первом проекте 15 человек и 1 год работы, во втором - 1 аналитик и 1 неделя.

Да еще несколько бутылок хорошего пива.

А стоимость проекта? В обоих случаях она была сопоставима. Рентабельность? )

Зная, как делать такое вторым способом - для вас конечно же будет дискаунт от оценки первым способом!

P.S. Ну да, конечно же во втором проекте уже был огромный багаж знаний предметной области заказчика, слаженная команда, инфраструктура с кучей готового софта на десятках кластеров с виртуалками для исполнения инструкций, но, тем не менее, для нас это вау-история!