25 января на открытой онлайн-встрече ведущий эксперт НСИ Qlever Solutions Елена Язева, представила аудитории ML-сервис для работы с мастер-данными, разработанный командой Qlever, и продемонстрировала действующие кейсы применения машинного обучения в управлении НСИ.
В статье по итогам вебинара рассказываем о том, зачем нужна нормализация данных, и как инструменты ML могут помочь в процессе нормализации мастер-данных.
Зачем приводить в порядок данные?
Данные – это уникальный актив:
- Данные – неисчерпаемый ресурс, в отличие от материальных или финансовых ресурсов
- Управление данными – кросс-функциональный процесс, который требует взаимодействия многих специалистов
- Высокое качество данных дает ценность, низкое качество создает издержки
- Необходим особый подход к определению объективной ценности данных
- Управление данными – это стратегический уровень, этот процесс требует понимания важности данных лидерами компании
- Управление данными включает управление рисками
Данные для компании – потенциал развития и получения прибыли
Они помогают компаниям сформировать уникальные конкурентные преимущества, получить дополнительную прибыль, оптимизировать производство и продажи, избежать риски.
***
Согласно отчету IDC (International Data Corporation), ежегодно объем данных в мире увеличивается на 61%.
Особенно быстро растет количество данных в отраслях, которые характеризуются сложными и высокотехнологичными процессами, производят или реализуют большое разнообразие продукции, имеют филиальную структуру, взаимодействуют с государственными информационными системами.
Например, на предприятиях информация о материалах, компонентах производимого изделия и его модификациях, технологических маршрутах, оснастке, оборудовании, контрагентах, ценах, процессах и стандартах является объектом основных данных и порой исчисляется миллионами строк.
При производстве одного авиационного двигателя может использоваться до 10 тыс. различных компонентов, включая различные детали и узлы, такие как лопатки турбины, компрессоры, камеры сгорания, подшипники, клапаны и т. д.
Объекты основных данных - самые значимые для организации сущности — те, которые отслеживаются в рамках транзакций, отражаются в отчетности, оцениваются и анализируются. Они хранятся в справочниках НСИ.
Важно, чтобы данные о каждом объекте НСИ поддерживались в актуальном состоянии.
Неверные значения, наличие в справочниках НСИ дубликатов и некорректных наименований могут стать причиной ошибок в производственных процессах, которые дорого обойдутся предприятию.
***
Приводить данные в порядок важно не только крупным предприятиям.
Данные, предназначенные для многократного применения при решении различных инженерно-технических и организационных задач, присутствуют и в других отраслях.
Беспорядок в справочниках и каталогах основных данных в любой компании приводит к:
- снижению качества бизнес-процессов
- замедлению работы компании из-за отличия в показателях подразделений
- увеличению времени получения отчетов до нескольких дней
- отсутствию возможности внедрить BI-инструменты для анализа бизнес-показателей
Низкое качество данных = потеря денег
Покажем на примерах, с которыми сталкивались специалисты Qlever в работе с клиентами.
Классические проблемы качества данных
В результате ручного ввода данных в справочники и присутствия человеческого фактора, бизнес сталкивается с проблемами качества данных:
- Ошибки в форматах данных: путаница в единицах измерения и форматах дат и времени
- Формальное отношение сотрудников к внесению исходных данных, копипаст
- Отсутствие или неполнота общих словарей
- Дубликаты
- Несовпадения перевода (как перевести корректно «ООО»: «ООО», «LLC», «Ltd» или «LLP»?)
- Отсутствие или недостаточность аудита исторических данных (например, произошло изменение юридического статуса контрагента, которое не было учтено)
- Проверка данных на возможность передачи во внешние источники (персональные и иные конфиденциальные данные)
Как приводить данные в порядок
Нормализация НСИ – это трансформация данных в соответствии с требованиями методики ведения объекта НСИ.
В процесс нормализации входят:
- Выявление и удаление дублей, неактуальных данных
- Выявление и устранение ошибок в данных
- Структурирование данных, приведение значений в соответствие правилам ведения
- Заполнение необходимых атрибутов
Как правило, нормализацию мастер-данных проводят вручную специалисты НСИ. Проверка и исправление 1000 позиций данных занимает у НСИ-экспертов до 1 рабочего дня, что делает процесс нормализации затратным.
Сократить время нормализации НСИ с 8 часов до 30 минут можно с помощью инструментов машинного обучения.
Сервис ML-Qlever
Команда Qlever Solutions разработала собственный инструмент для нормализации данных на основе машинного обучения, который поможет навести порядок в любом корпоративном справочнике эффективнее и дешевле ручной нормализации.
Сервис может использоваться для:
- Выделения характеристик из неструктурированных наименований
- Классификации объектов справочников
Для работы с сервисом необходимы только ресурсы на подготовку данных, обучение модели с помощью обучающей выборки и проверку результатов.
Автоматическое выделение характеристик
Алгоритм выделяет значения характеристик из неструктурированного наименования, согласно словарю характеристик, и одновременно нормализует их.
- Объем данных по выборке из примера – 10 000 записей
- Количество характеристик – 7
- Время подготовки словаря характеристик методистом – 1 час
- Время работы алгоритма - 20 минут
- Время проверки – 40 минут
Автоматическая классификация
Инструмент классифицирует номенклатуру по совокупности атрибутов номенклатуры, в том числе, по историческому наименованию.
Аналогично может быть проведена классификация по другим классификаторам (ТН ВЭД, ОКПД2, ЕТСНГ и т.п).
Точность классификации номенклатуры с помощью ML составляет 99%.
***
Узнайте больше об инструменте ML, который приведет в порядок справочники меньше, чем за 1 час
***
Чем помогут инструменты ML в управлении данными?
- Автоматический сбор данных, чтобы формировать дашборды и получать аналитические отчёты максимально быстро и без использования ручного труда
- Обнаружение аномалий в справочниках, поиск ошибок или дублей в данных для их своевременного исправления
- Классификация объектов справочников на основе большого количества характеристик или по неструктурированным данным, чтобы обогащать и дополнять данные необходимыми атрибутами
- Автоматический перевод текстовых и звуковых данных
- Система рекомендаций, прогнозирование событий
- Интеллектуальный помощник в необходимой предметной области
Машинное обучение многократно ускоряет процесс обработки данных и экономит ваши средства.
Рассмотрим экономическое обоснование, приведенное выше.
В таблице наглядно показали сравнение затрат при нормализации справочника на 10 000 единиц номенклатуры ручным методом и с помощью алгоритмов машинного обучения.
Расчетная стоимость чел.- часа определена при окладе сотрудника 100 тыс. руб. в месяц с учетом начислений на з/п и накладных расходов 40%. Из таблицы видно:
1. При проверке дублей вручную эксперту необходимо будет вычитать все 10 000 позиций справочника и вникнуть в смысл каждой записи, этот процесс займет до 40 человеко-часов и по средним расчетам ЗП обойдется компании в 41 тыс. рублей. Наименования позиций могут, на первый взгляд, быть одинаковыми, но на самом деле незначительно отличаться.
В такой ситуации простой поиск дублей не даст необходимого результата.
Алгоритмы ML производят интеллектуальный поиск и отмечают ряд позиций, которые похожи с определенной степенью релевантности (например, две позиции похожи на 78%). Алгоритм дает эксперту ориентир, что необходимо сравнить именно эти позиции и сделать вывод.
С помощью автоматического сравнения эксперту НСИ необходимо будет проверить уже не 10 000, а всего 500 позиций, где дубли наиболее вероятны, что сократит время, а значит, и стоимость его работы. По данной задаче ML-алгоритм экономит до 60% времени эксперта.
2. Для классификации записей с помощью машинного обучения, например, по ОКПД2, специалисту не нужно сопоставлять все позиции. Временные затраты приходятся только на подготовку обучающей выборки для ML-сервиса, а затем алгоритм автоматически проставляет коды, с точностью почти в 100%. Здесь экономия затрат от использования ML достигает до 90%, сокращая стоимость работы специалиста с 83 тыс. до 8 тыс. рублей.
3. Самый большой выигрыш по времени можно получить при выделении характеристик из неструктурированных данных. Здесь, как видно на таблице, мы сокращаем затраты компании с 166 тыс. до 2 тыс. рублей.
Например, при необходимости выделения дополнительных атрибутов из выборки по МТР (материально-технические ресурсы) с помощью ML, необходимо только предварительно подготовить список характеристик и возможных значений.
4. Произведя разбивку по атрибутам, можно легко провести нормализацию наименований для стандартизации их в справочнике. Автоматизированная нормализация наименований займет у сотрудника около 80 часов против всего 8 часов работы алгоритма, экономия составит до 90%.
Стоимость работ по НСИ с использованием ML-Qlever
На рынке средняя стоимость нормализации одной позиции в справочнике стоит в районе 150 рублей, в таблице мы показали, как снижается стоимость за обработку одной позиции по разным видами задач НСИ при применении нашего ML-алгоритма Qlever.
Запишитесь на тест-драйв Qlever-ML
С помощью инструментов машинного обучения нормализуем ваши данные бесплатно*
*до 1000 позиций справочника