5142 подписчика
Поиск, скачивание и извлечение метаданных из документов в свободном доступе с помощью Python. #01
В широком понимании метаданных, все уже привыкли к тому, что метаданные есть в фото, аудио или видео. Но мы редко задумываемся о том, что метаданные есть и у других типов файлов. Например, у различных форматов офисных документов. И содержаться в них может имя учетной записи, который этот документ создал, иногда электронная почта или ФИО, реже телефон. И если с фото более-менее все почти наладилось и очисткой метаданных занимаются сами сайты, куда вы его загружаете, если это не стоковое изображение, конечно, то вот с документами несколько иная картина. Редко кто заморачивется над тем, чтобы удалить метаданные из документа, перед тем, как его загрузить на сайт. А вот о том, как получить документы с нужного сайта и извлечь эти метаданные с помощью Python давайте и поговорим.
#python #metadata #information
Около минуты
12 июля 2022