Найти тему
10,1 тыс подписчиков

В реальных датасетах часто встречаются опечатки и ошибки, особенно в категориальных переменных, введенных вручную.


Чтобы объединить несколько вариантов одной и той же категории, используйте функцию deduplicate библиотеки skrub.

skrub - это библиотека Python, облегчающая подготовку таблиц для машинного обучения.

pip install git+https://github.com/skrub-data/skrub.git

📌 Github

В реальных датасетах часто встречаются опечатки и ошибки, особенно в категориальных переменных, введенных вручную.
Около минуты