Поиск идентичных или похожих фотографий вручную – долгая и утомительная задача. Ее не решить просто сравнением размера и имени файлов, т.к. фото берутся из разных источников (мобильные устройства, приложения для социальных сетей и пр.), что приводит к различиям в этих атрибутах и создает разницу в разрешении, масштабировании, сжатии и яркости. Хеш-функции идеально подходят для обнаружения идентичных и похожих фото из-за устойчивости к незначительным изменениям. На этой идее основана Undouble - Python-библиотека,...
Этот скрипт проходит по указанной директории и её подпапкам, собирая хеши файлов для определения дубликатов. Важно то, что мы сверяем именно хэши файлов, а не имена))) Имя может быть и одинаковое, а вот сущность файлов совсем разной. А вот совпадающий хэш точно говорит нам о том, что файлы идентичны. Ранее уже был скрипт, который считает хэши файлов...