В предыдущей статье "Python работа с файлами PDF" мы рассмотрели основные библиотеки для работы с PDF (чтения, извлечения данных и создания PDF файлов). В данной статье мы рассмотрим методы чтение и извлечение данных из файлов PDF средствами Python. Для извлечения данных из файла PDF используют следующие библиотеки: PyPDF2 Устанавливаем библиотеку через командную строку: pip install PyPDF2 Извлечение метаданных PDF: В метаданных содержатся сведения о количестве страниц, сведения об авторе, авторах, название приложения в котором создан файл, дата создания. Импортируем модуль PdfFileReader из библиотеки PyPDF2. Запрашиваем у пользователя путь к файлу. С помощью оператора with открываем файл в двоичном режиме. Оператор with гарантирует закрытие файла автоматически даже при возникновении ошибки, подробнее о работе с файлами можно прочитать в статье: "Python работа с файлами". Объект PdfFileReader() используется для чтения PDF файла. Свойство documentInfo является словарем содержащим