171 подписчик
Data Profiling — процесс изучения данных, доступных из существующего источника информации, и сбора статистических данных или информативных сводок об этих данных.
☝️ Другими словами, процесс профилирования состоит как бы из двух шагов:
✔️ первый - это этап изучения данных, понимания их структуры, взаимосвязей, бизнес-контекста и возможного применения в дальнейшем анализе. Также этап может включать процесс извлечения метаданных: информации о технических именах данных, формат, размер, время создания и т.п.;
✔️ второй - этап сбора статистических характеристик, таких как характер распределения величин, наличие выбросов, параметры выборки. Этот этап также может включать процедуры по предварительной оценке качества данных: поиск пропущенных значений, нарушения целостности и бизнес-логики связей между значениями полей и т.п.
Около минуты
15 августа 2024