Попробуйте PClean - новая система от исследователей MIT, написанная на предметно-ориентированном вероятностном языке программирования для автоматической очистки данных. Она удаляет опечатки, дубликаты, пропущенные значения, орфографические ошибки и несоответствия, облегчая подготовку датасета к анализу и ML-моделированию. Примечательно, что PClean не просто механически очищает данные, а учитывает их семантику с помощью обобщенных моделей здравого смысла для суждений, которые можно настроить для конкретных баз данных и типов ошибок. Идея вероятностной очистки данных на базе декларативного и обобщенного знания о контексте исследований – не новая. Впервые она прозвучала в статье 2003 года сотрудников Калифорнийского университета Беркли с предположением, что такой подход потенциально может обеспечить гораздо большую точность, чем другие популярные методы машинного обучения. PClean развивает эту мысль с учетом тренда на «объяснимый ИИ» – применение реалистичных моделей человеческих знаний