13,7K подписчиков
Источник: Nuances of Programming Специалисту в области науки о данных приходится анализировать данные в любой форме, ведь они хранятся как в специальных SQL-базах, вроде PostgreSQL и MySQL, так и в старой доброй электронной таблице Microsoft Excel. Более того, иногда данные сохранены в нетрадиционном формате, например в PDF. В этой статье вы узнаете, как скрейпить данные из файлов PDF и оформлять их подходящим для применения в Data Science образом с помощью специальных библиотек языка программирования Python...
2 года назад
670 подписчиков
В данной статье мы рассмотрим работу с файлами PDF средствами Python. Мы изучим, основные инструменты: библиотеки и модули для работы с PDF файлами. Это статья начало серии статей, посвященных работе с PDF файлами средствами Python. В первой части, мы рассмотрим, основные Python библиотеки для работы с PDF файлами. Вторая часть будет посвящена работе с существующими файлами, чтение файлов, извлечение нужной информации, картинок из файла. Третья часть будет рассматривать вопросы создания PDF файлов...
2 года назад