10,1 тыс подписчиков
В реальных датасетах часто встречаются опечатки и ошибки, особенно в категориальных переменных, введенных вручную.
Чтобы объединить несколько вариантов одной и той же категории, используйте функцию deduplicate библиотеки skrub.
skrub - это библиотека Python, облегчающая подготовку таблиц для машинного обучения.
pip install git+https://github.com/skrub-data/skrub.git
📌 Github
Около минуты
23 ноября 2023