Найти в Дзене
Программирование

​Как извлечь данные из файлов PDF и Microsoft Office

Помимо основной информации, файлы Microsoft Office и PDF могут содержать достаточно большое количество метаданных, фактических сведений о файлах. Эти данные включают в себя имя автора, название темы, ключевые слова, приложение, в котором был создан документ, время его создания и редактирования, количество страниц и так далее. В свойствах документов для просмотра доступна только малая часть этих

Помимо основной информации, файлы Microsoft Office и PDF могут содержать достаточно большое количество метаданных, фактических сведений о файлах. Эти данные включают в себя имя автора, название темы, ключевые слова, приложение, в котором был создан документ, время его создания и редактирования, количество страниц и так далее. В свойствах документов для просмотра доступна только малая часть этих данных.

Чтобы получить полный список метаданных документа вам понадобиться утилита MetaExtractor. Программа поддерживает анализ файлов OpenOffice, Microsoft Office, Adobe PDF, созданных в SolidWorks чертежей CAD, извлечение более 40 типов метаданных, работу в пакетном режиме, сохранение извлеченной информации в CSV-файл.

Чтобы проанализировать файл, нужно нажать в главном меню иконку пустого файла, если файлов много, их нужно поместить в одну папку и указать ее через то же меню, нажав иконку в виде каталога.

MetaExtractor проанализирует документы и выведет метаданные горизонтальным списком для каждого файла, тогда как сами файлы будут выведены вертикальным списком. При необходимости полученную информацию можно передать в CSV-файл. Утилита не поддерживает редактирование метаданных, только их просмотр.

-2

#софт