Очистка данных это процесс обнаружения и исправления (или удаления) поврежденных или неточных записей из набора записей, таблицы или базы данных. Процесс включает в себя выявление неполных, неправильных, неточных или несущественных данных, а затем замену, изменение или удаление «загрязненных» данных. Данные являются одним из самых важных ресурсов компании. Качество данных, которыми оперирует компания, может привести к ее взлету или падению. Полученные первичные сырые данные не представляют для компании большой ценности. В них содержится полезная информация, но увидеть ее без предварительной обработки данных невозможно. Для придания данным ценности их необходимо обработать, удалить ненужные данные и повторы, данные в которых содержатся ошибки, добавить необходимые данные, например добавить столбец со средним (минимальным/максимальным) значением и др. Для обработки данных мы воспользуемся Python и библиотеку Pandas. Документация доступна по ссылке. Чтобы обработать данные, их нужно