Найти в Дзене

Про качество данных при принятии решений

Итак, как же «готовить» эти данные? Это довольно обширный и спорный вопрос: универсального рецепта здесь нет, а методик, инструментов и мнений слишком много. Поэтому вместо того, чтобы делать вид, что существует одна «правильная» схема, я хочу зафиксировать базовый принцип: 📌 Для принятия решения недостаточно просто иметь данные – нужно понимать, насколько они пригодны для конкретной задачи. Отвлечёмся на время от типов информации и представим, что есть какие-то абстрактные «данные», и нам нужно принять решение на их основе. 💢 А как понять, можно ли им доверять? В классических научных работах (список, как всегда, в комментариях) качество данных обычно связывают с их пригодностью к использованию. Иными словами, хорошие данные – это не абстрактно «точные» данные, а данные, которые помогают решить конкретную задачу. Вообще, человеку, принимающему решения, не нужно погружаться во все методики оценки данных. Но понимание критериев, по которым их можно и нужно оценивать – это обязатель

Про качество данных при принятии решений

Итак, как же «готовить» эти данные? Это довольно обширный и спорный вопрос: универсального рецепта здесь нет, а методик, инструментов и мнений слишком много. Поэтому вместо того, чтобы делать вид, что существует одна «правильная» схема, я хочу зафиксировать базовый принцип:

📌 Для принятия решения недостаточно просто иметь данные – нужно понимать, насколько они пригодны для конкретной задачи.

Отвлечёмся на время от типов информации и представим, что есть какие-то абстрактные «данные», и нам нужно принять решение на их основе.

💢 А как понять, можно ли им доверять?

В классических научных работах (список, как всегда, в комментариях) качество данных обычно связывают с их пригодностью к использованию. Иными словами, хорошие данные – это не абстрактно «точные» данные, а данные, которые помогают решить конкретную задачу. Вообще, человеку, принимающему решения, не нужно погружаться во все методики оценки данных. Но понимание критериев, по которым их можно и нужно оценивать – это обязательный элемент системы принятия решений на основе данных.

Неисчерпывающий список критериев качества самих данных

🔘Релевантность. Насколько эти данные вообще отвечают на наш вопрос, а не просто «лежат под рукой»?

🔘Точность. Насколько значения соответствуют реальности, а не являются следствием ошибки, искажения или некорректного измерения?

🔘Полнота и покрытие. Содержат ли данные все нужные записи, нет ли систематически пропущенных наблюдений?

(при этом полноту не путать с точностью: набор может быть полным, но содержать неверные значения)

🔘Согласованность и сопоставимость. Нет ли внутренних противоречий, можно ли корректно сравнивать записи между собой?

🔘Структурированность и интерпретируемость. Насколько данные представлены в понятной форме: однозначно ли трактуются все значения, можно ли без потери смысла систематизировать и обрабатывать их дальше? Именно здесь живёт representational quality.

🔘Актуальность. Насколько данные соответствуют рассматриваемому моменту времени, допустим ли лаг между сбором, публикацией и использованием?

🔘Доступность. Можно ли эти данные вовремя найти, получить и использовать в реальном процессе принятия решения?

В теории это звучит весомо, но на практике трудно достичь идеала в рамках всех этих критериев, что совсем не значит, что не следует к этому стремиться! В реальности для оценки данных очень важен учёт контекста источника и риска искажений. Потому что данные не возникают в вакууме. Их производят люди, организации и системы со своими целями, ограничениями и стимулами. Поэтому следующий неисчерпывающий список про критерии доверия к происхождению информации:

🔘Надёжность и репутация источника. Насколько источник в принципе заслуживает доверия и каков его исторический трек по качеству данных?

🔘Слепые зоны. Какие сценарии систематически недопредставлены, какие допущения уже «вшиты» в процесс сбора и интерпретации?

🔘Политика обновлений и ревизий. Исправляет ли источник данные задним числом, документирует ли пересмотры и можно ли понять, какая версия данных легла в основу анализа?

🔘Стимулы и конфликты интересов. Что источник выигрывает от публикации именно такой информации, какие у него ограничения и где у него может быть мотив для сознательного или бессознательного искажения?

Последний пункт часто недооценивают. Иногда источник может быть надёжным, но сама информация оказывается некорректной из-за разных феноменов – например, «circle jerk analytics»🙃

Что это означает на практике?

Доверять данным стоит не потому, что их много, они красиво представлены или происходят из «уважаемого» источника. Доверять можно только тем данным, качество которых проверено по понятным критериям и соотнесено с конкретной задачей. Во всех остальных случаях data-driven очень легко превращается просто в dashboard-driven. Принцип «мусор на входе – мусор на выходе» никуда не девается.

Перед тем как строить анализ и тем более принимать решение, полезно спрашивать не «Есть ли у нас данные?», а:

«Достаточно ли эти данные качественны для этой задачи?»

#культура_принятия_решений