Разбираем решение задачи по SQL с нашего телеграмм-канала про поиск и удаление дублей в таблице
Как удалить дубли в датасете при работе с Apache Spark?
Используйте следующие методы API-интерфейсов фреймворка: • distinct() ¬- самый простой и часто использующийся способ убрать из датафрейма идентичные повторяющиеся строки • dropDuplicates() – в отличие от distinct(), который не принимает аргументов вообще, в аргументах dropDuplicates() можно указать подмножество столбцов для удаления повторяющихся записей. Поэтому dropDuplicates(Seq <String> colNames) больше подходит, когда нужно обработать только некоторые столбцы из исходного набора данных. • reduceByKey()...
SQL - Oracle - подключение к базе
Для работы с БД в комплекте идет консольное приложение, но это скорее для админов.
Для ежедневной работы лучше с графическим интерфейсом:
* SQL Developer
* PL/SQL Developer (нужен ключ, но когда это кого-то останавливало?)
Качаем, распаковываем / устанавливаем, запускаем. В SQL Developer создать подключение к БД: Name - произвольное имя подключения (например, SYS) Username - SYS Password - пароль для системной/админской учетки Role - выбрать SYSDBA Включить пункт Service Name, ввести в поле служебное имя БД (было указано при установке). Можно сразу протестировать подключение кнопкой Test. Если норм - сохранить подключение...