292 читали · 3 года назад
Python чтение pdf файлов
В предыдущей статье "Python работа с файлами PDF" мы рассмотрели основные библиотеки для работы с PDF (чтения, извлечения данных и создания PDF файлов). В данной статье мы рассмотрим методы чтение и извлечение данных из файлов PDF средствами Python. Для извлечения данных из файла PDF используют следующие библиотеки: PyPDF2 Устанавливаем библиотеку через командную строку: pip install PyPDF2 Извлечение метаданных PDF: В метаданных содержатся сведения о количестве страниц, сведения об авторе, авторах, название приложения в котором создан файл, дата создания...
242 читали · 3 года назад
Скрейпинг PDF с нуля на Python: библиотеки tabula-py и Pandas
Источник: Nuances of Programming Специалисту в области науки о данных приходится анализировать данные в любой форме, ведь они хранятся как в специальных SQL-базах, вроде PostgreSQL и MySQL, так и в старой доброй электронной таблице Microsoft Excel. Более того, иногда данные сохранены в нетрадиционном формате, например в PDF. В этой статье вы узнаете, как скрейпить данные из файлов PDF и оформлять их подходящим для применения в Data Science образом с помощью специальных библиотек языка программирования Python...