485 подписчиков

Как с помощью ML сократить время нормализации справочников номенклатуры с 8 часов до 30 минут?

1 февраля 20241 фев 2024

160

7 мин

25 января на открытой онлайн-встрече ведущий эксперт НСИ Qlever Solutions Елена Язева, представила аудитории ML-сервис для работы с мастер-данными, разработанный командой Qlever, и продемонстрировала действующие кейсы применения машинного обучения в управлении НСИ. В статье по итогам вебинара рассказываем о том, зачем нужна нормализация данных, и как инструменты ML могут помочь в процессе нормализации мастер-данных. Зачем приводить в порядок данные? Данные – это уникальный актив: Данные для компании – потенциал развития и получения прибыли

Они помогают компаниям сформировать уникальные конкурентные преимущества, получить дополнительную прибыль, оптимизировать производство и продажи, избежать риски. *** Согласно отчету IDC (International Data Corporation), ежегодно объем данных в мире увеличивается на 61%.

Особенно быстро растет количество данных в отраслях, которые характеризуются сложными и высокотехнологичными процессами, производят или реализуют большое разнообразие продукции, им

Оглавление

Зачем приводить в порядок данные?
***
***

25 января на открытой онлайн-встрече ведущий эксперт НСИ Qlever Solutions Елена Язева, представила аудитории ML-сервис для работы с мастер-данными, разработанный командой Qlever, и продемонстрировала действующие кейсы применения машинного обучения в управлении НСИ.

В статье по итогам вебинара рассказываем о том, зачем нужна нормализация данных, и как инструменты ML могут помочь в процессе нормализации мастер-данных.

Зачем приводить в порядок данные?

Данные – это уникальный актив:

Данные – неисчерпаемый ресурс, в отличие от материальных или финансовых ресурсов
Управление данными – кросс-функциональный процесс, который требует взаимодействия многих специалистов
Высокое качество данных дает ценность, низкое качество создает издержки
Необходим особый подход к определению объективной ценности данных
Управление данными – это стратегический уровень, этот процесс требует понимания важности данных лидерами компании
Управление данными включает управление рисками

Данные для компании – потенциал развития и получения прибыли

Они помогают компаниям сформировать уникальные конкурентные преимущества, получить дополнительную прибыль, оптимизировать производство и продажи, избежать риски.

***

Согласно отчету IDC (International Data Corporation), ежегодно объем данных в мире увеличивается на 61%.

Особенно быстро растет количество данных в отраслях, которые характеризуются сложными и высокотехнологичными процессами, производят или реализуют большое разнообразие продукции, имеют филиальную структуру, взаимодействуют с государственными информационными системами.

Например, на предприятиях информация о материалах, компонентах производимого изделия и его модификациях, технологических маршрутах, оснастке, оборудовании, контрагентах, ценах, процессах и стандартах является объектом основных данных и порой исчисляется миллионами строк.

При производстве одного авиационного двигателя может использоваться до 10 тыс. различных компонентов, включая различные детали и узлы, такие как лопатки турбины, компрессоры, камеры сгорания, подшипники, клапаны и т. д.

Объекты основных данных - самые значимые для организации сущности — те, которые отслеживаются в рамках транзакций, отражаются в отчетности, оцениваются и анализируются. Они хранятся в справочниках НСИ.

Важно, чтобы данные о каждом объекте НСИ поддерживались в актуальном состоянии.

Неверные значения, наличие в справочниках НСИ дубликатов и некорректных наименований могут стать причиной ошибок в производственных процессах, которые дорого обойдутся предприятию.

***

Приводить данные в порядок важно не только крупным предприятиям.

Данные, предназначенные для многократного применения при решении различных инженерно-технических и организационных задач, присутствуют и в других отраслях.

Беспорядок в справочниках и каталогах основных данных в любой компании приводит к:

снижению качества бизнес-процессов
замедлению работы компании из-за отличия в показателях подразделений
увеличению времени получения отчетов до нескольких дней
отсутствию возможности внедрить BI-инструменты для анализа бизнес-показателей

Низкое качество данных = потеря денег

Покажем на примерах, с которыми сталкивались специалисты Qlever в работе с клиентами.

Классические проблемы качества данных

В результате ручного ввода данных в справочники и присутствия человеческого фактора, бизнес сталкивается с проблемами качества данных:

Ошибки в форматах данных: путаница в единицах измерения и форматах дат и времени
Формальное отношение сотрудников к внесению исходных данных, копипаст
Отсутствие или неполнота общих словарей
Дубликаты
Несовпадения перевода (как перевести корректно «ООО»: «ООО», «LLC», «Ltd» или «LLP»?)
Отсутствие или недостаточность аудита исторических данных (например, произошло изменение юридического статуса контрагента, которое не было учтено)
Проверка данных на возможность передачи во внешние источники (персональные и иные конфиденциальные данные)

Как приводить данные в порядок

Нормализация НСИ – это трансформация данных в соответствии с требованиями методики ведения объекта НСИ.

В процесс нормализации входят:

Выявление и удаление дублей, неактуальных данных
Выявление и устранение ошибок в данных
Структурирование данных, приведение значений в соответствие правилам ведения
Заполнение необходимых атрибутов

Как правило, нормализацию мастер-данных проводят вручную специалисты НСИ. Проверка и исправление 1000 позиций данных занимает у НСИ-экспертов до 1 рабочего дня, что делает процесс нормализации затратным.

Сократить время нормализации НСИ с 8 часов до 30 минут можно с помощью инструментов машинного обучения.

Сервис ML-Qlever

Команда Qlever Solutions разработала собственный инструмент для нормализации данных на основе машинного обучения, который поможет навести порядок в любом корпоративном справочнике эффективнее и дешевле ручной нормализации.

Сервис может использоваться для:

Выделения характеристик из неструктурированных наименований
Классификации объектов справочников

Для работы с сервисом необходимы только ресурсы на подготовку данных, обучение модели с помощью обучающей выборки и проверку результатов.

Автоматическое выделение характеристик

Алгоритм выделяет значения характеристик из неструктурированного наименования, согласно словарю характеристик, и одновременно нормализует их.

Объем данных по выборке из примера – 10 000 записей
Количество характеристик – 7
Время подготовки словаря характеристик методистом – 1 час
Время работы алгоритма - 20 минут
Время проверки – 40 минут

Автоматическая классификация

Инструмент классифицирует номенклатуру по совокупности атрибутов номенклатуры, в том числе, по историческому наименованию.
Аналогично может быть проведена классификация по другим классификаторам (ТН ВЭД, ОКПД2, ЕТСНГ и т.п).

Точность классификации номенклатуры с помощью ML составляет 99%.

***

Узнайте больше об инструменте ML, который приведет в порядок справочники меньше, чем за 1 час

Посмотрите вебинар "ML-алгоритмы в системе управления НСИ: 100-кратный рост скорости и экономической эффективности"

***

Чем помогут инструменты ML в управлении данными?

Автоматический сбор данных, чтобы формировать дашборды и получать аналитические отчёты максимально быстро и без использования ручного труда
Обнаружение аномалий в справочниках, поиск ошибок или дублей в данных для их своевременного исправления
Классификация объектов справочников на основе большого количества характеристик или по неструктурированным данным, чтобы обогащать и дополнять данные необходимыми атрибутами
Автоматический перевод текстовых и звуковых данных
Система рекомендаций, прогнозирование событий
Интеллектуальный помощник в необходимой предметной области

Машинное обучение многократно ускоряет процесс обработки данных и экономит ваши средства.

Рассмотрим экономическое обоснование, приведенное выше.

В таблице наглядно показали сравнение затрат при нормализации справочника на 10 000 единиц номенклатуры ручным методом и с помощью алгоритмов машинного обучения.

Расчетная стоимость чел.- часа определена при окладе сотрудника 100 тыс. руб. в месяц с учетом начислений на з/п и накладных расходов 40%. Из таблицы видно:

1. При проверке дублей вручную эксперту необходимо будет вычитать все 10 000 позиций справочника и вникнуть в смысл каждой записи, этот процесс займет до 40 человеко-часов и по средним расчетам ЗП обойдется компании в 41 тыс. рублей. Наименования позиций могут, на первый взгляд, быть одинаковыми, но на самом деле незначительно отличаться.

В такой ситуации простой поиск дублей не даст необходимого результата.

Алгоритмы ML производят интеллектуальный поиск и отмечают ряд позиций, которые похожи с определенной степенью релевантности (например, две позиции похожи на 78%). Алгоритм дает эксперту ориентир, что необходимо сравнить именно эти позиции и сделать вывод.

С помощью автоматического сравнения эксперту НСИ необходимо будет проверить уже не 10 000, а всего 500 позиций, где дубли наиболее вероятны, что сократит время, а значит, и стоимость его работы. По данной задаче ML-алгоритм экономит до 60% времени эксперта.

2. Для классификации записей с помощью машинного обучения, например, по ОКПД2, специалисту не нужно сопоставлять все позиции. Временные затраты приходятся только на подготовку обучающей выборки для ML-сервиса, а затем алгоритм автоматически проставляет коды, с точностью почти в 100%. Здесь экономия затрат от использования ML достигает до 90%, сокращая стоимость работы специалиста с 83 тыс. до 8 тыс. рублей.

3. Самый большой выигрыш по времени можно получить при выделении характеристик из неструктурированных данных. Здесь, как видно на таблице, мы сокращаем затраты компании с 166 тыс. до 2 тыс. рублей.

Например, при необходимости выделения дополнительных атрибутов из выборки по МТР (материально-технические ресурсы) с помощью ML, необходимо только предварительно подготовить список характеристик и возможных значений.

4. Произведя разбивку по атрибутам, можно легко провести нормализацию наименований для стандартизации их в справочнике. Автоматизированная нормализация наименований займет у сотрудника около 80 часов против всего 8 часов работы алгоритма, экономия составит до 90%.

Стоимость работ по НСИ с использованием ML-Qlever

На рынке средняя стоимость нормализации одной позиции в справочнике стоит в районе 150 рублей, в таблице мы показали, как снижается стоимость за обработку одной позиции по разным видами задач НСИ при применении нашего ML-алгоритма Qlever.

Запишитесь на тест-драйв Qlever-ML

С помощью инструментов машинного обучения нормализуем ваши данные бесплатно*
*до 1000 позиций справочника