Найти в Дзене

🍜 Как «приготовить» информацию для принятия решений

Мы уже обсудили, что информация становится «хорошей» не сама по себе, а потому, что соответствует определённому набору критериев качества. Теперь, наконец-то, можно поговорить о том, как «приготовить» информацию, ведь по умолчанию она крайне редко готова к употреблению в контексте поддержки принятие решений. Предположим, что мы сделали качественную постановку задачи и понимаем её границы. Это нетривиальная задача, которая напрямую влияет на релевантность, полноту, покрытие и актуальность данных – те критерии, о которых шла речь в предыдущем посте. Дальше механизм работы с данными примерно следующий: 1️⃣Создание общей терминологии и определение единиц измерения Это базис последующего анализа. На этом этапе определяются сущности, атрибуты, единицы измерения и классификаторы. Фактически формируется единое непротиворечивое пространство, в рамках которого будет происходить дальнейшая работа с данными. У нас, например, это выражается в создании модели предметной области и согласовании еди

🍜 Как «приготовить» информацию для принятия решений

Мы уже обсудили, что информация становится «хорошей» не сама по себе, а потому, что соответствует определённому набору критериев качества. Теперь, наконец-то, можно поговорить о том, как «приготовить» информацию, ведь по умолчанию она крайне редко готова к употреблению в контексте поддержки принятие решений.

Предположим, что мы сделали качественную постановку задачи и понимаем её границы. Это нетривиальная задача, которая напрямую влияет на релевантность, полноту, покрытие и актуальность данных – те критерии, о которых шла речь в предыдущем посте. Дальше механизм работы с данными примерно следующий:

1️⃣Создание общей терминологии и определение единиц измерения

Это базис последующего анализа. На этом этапе определяются сущности, атрибуты, единицы измерения и классификаторы. Фактически формируется единое непротиворечивое пространство, в рамках которого будет происходить дальнейшая работа с данными. У нас, например, это выражается в создании модели предметной области и согласовании единого понимания терминологии.

На что влияет:

структурированность и интерпретируемость, согласованность и сопоставимость, точность

2️⃣Создание поисковой стратегии

Разрабатывается логика поиска:

где ищем, какие источники считаем обязательными, какие критерии включения и исключения используем, по каким признакам оцениваем доверие к источнику и т.д.

На что влияет:

релевантность, полноту и покрытие, доступность, надёжность и репутацию источника, слепые зоны, стимулы и конфликты интересов, политику обновлений и ревизий

3️⃣Поиск и отбор данных

Дальше начинается итеративный поиск данных в соответствии с разработанной стратегией. Важно сохранять исходные файлы, выгрузки, ссылки и метаданные. Это необходимо для проверки, воспроизводимости анализа и последующих обновлений.

На что влияет:

полноту и покрытие, актуальность, доступность, политику обновлений и ревизий

4️⃣Извлечение и структурирование

На этом этапе данные из разных форматов (тексты, документы, новости, отчёты) приводятся в единый формат (который мы утвердили на первой стадии). Пока информация не приведена в структуру, её невозможно корректно сравнивать, очищать и агрегировать.

На что влияет:

структурированность и интерпретируемость, точность, согласованность и сопоставимость

5️⃣Очистка и валидация

Здесь исправляются форматы, ошибки, пропуски, противоречия и выбросы. Также проверяются диапазоны значений и базовая логическая корректность записей.

На что влияет:

точность, полноту и покрытие, согласованность и сопоставимость

6️⃣Гармонизация и интеграция

Данные из разных источников приводятся к общему представлению: согласуются поля, единицы измерения, временные периоды, классификаторы, коды и правила агрегации.

Важно делать это после локальной очистки, иначе ошибки из разных источников начинают усиливать друг друга.

На что влияет:

согласованность и сопоставимость, структурированность и интерпретируемость, полноту и покрытие

7️⃣Связывание сущностей и устранение дублирования

На этом этапе определяется, какие записи относятся к одной и той же сущности. Дубликаты объединяются или отправляются на ручную проверку. Дедупликация работает значительно надёжнее, если данные уже очищены и приведены к общему формату.

На что влияет:

точность, полноту и покрытие, согласованность и сопоставимость

8️⃣Синтез, контроль качества и выпуск результата

После всех предыдущих этапов можно рассчитывать метрики качества данных и переходить к анализу. Именно здесь данные превращаются в основу для принятия правильных решений.

На что влияет:

на все метрики из предыдущего поста, но прежде всего на точность, актуальность, доступность, надёжность и репутацию источника, а также на прозрачность политики обновлений и ревизий.

После того как данные обработаны таким образом – их можно считать подготовленными для опоры в принятии решений. При условии, что каждый из предыдущих шагов был выполнен качественно, конечно.

❓ Теперь понятно, почему «просто собрать данные» и «подготовить данные для решений» – это совсем разные задачи?

#культура_принятия_решений