Найти тему

Data Profiling — процесс изучения данных, доступных из существующего источника информации, и сбора статистических данных или информативных сводок об этих данных.


☝️ Другими словами, процесс профилирования состоит как бы из двух шагов:

✔️ первый - это этап изучения данных, понимания их структуры, взаимосвязей, бизнес-контекста и возможного применения в дальнейшем анализе. Также этап может включать процесс извлечения метаданных: информации о технических именах данных, формат, размер, время создания и т.п.;

✔️ второй - этап сбора статистических характеристик, таких как характер распределения величин, наличие выбросов, параметры выборки. Этот этап также может включать процедуры по предварительной оценке качества данных: поиск пропущенных значений, нарушения целостности и бизнес-логики связей между значениями полей и т.п.

Около минуты