Заказчиком поставлена задача подготовить данные по продажам к включению в контур корпоративного прогнозирования. Дело в том, что данные из представленного источника вызывают опасения по качеству. И в соответствии с ТЗ, качество данных в конкретном случае в абсолютном приоритете по отношению к полноте данных. Поэтому основной нюанс в том, что если найдена ошибка в какой либо операции, то удаляется вся история продаж конкретной позиции для конкретного контрагента. Итак, на входе таблица в базе данных. Несколько десятков миллионов строк. Нужно продумать признаки, которые будут сигнализировать об ошибке в конкретной строке, или хотя бы о том, что строка подозрительна. Далее, необходимо разработать программу, которая подготовит датафрейм с ошибочными и подозрительными строками, для загрузки и анализа в Power BI, а также датафрейм с очищенными безошибочными данными, для использования в контуре прогнозирования. Загружаем необходимые библиотеки. Методы загрузки данных. Загружаем основные данны
Python_warning_filter. Очистка данных для аналитики компании
19 августа 202319 авг 2023
14
1 мин