46 прочтений · 2 года назад
Как удалить дубли в датасете при работе с Apache Spark?
Используйте следующие методы API-интерфейсов фреймворка: • distinct() ¬- самый простой и часто использующийся способ убрать из датафрейма идентичные повторяющиеся строки • dropDuplicates() – в отличие от distinct(), который не принимает аргументов вообще, в аргументах dropDuplicates() можно указать подмножество столбцов для удаления повторяющихся записей. Поэтому dropDuplicates(Seq <String> colNames) больше подходит, когда нужно обработать только некоторые столбцы из исходного набора данных. • reduceByKey()...
85 прочтений · 2 года назад
Распределение столбцов датафрейма по группам числовых и категориальных типов
Рассмотрим, как быстро разделить колонки датафрейма на категориальные и числовые группы. Это является важным этапом перед преобразованием типов и формы подачи данных в алгоритм машинного обучения, так как подходы к их обработке зачастую разнятся. Загрузим тестовый датасет для демонстрации: Базовую часть работы будет выполнять метод датафрейма, который возвращает серию с информацией о количестве уникальных значений в каждом столбце (по умолчанию)/строке:...