113 прочтений · 11 месяцев назад
Извлечение текста из PDF-файлов с помощью Python: исчерпывающее руководство
Источник: Nuances of Programming Введение В век больших языковых моделей (LLM) и их широкого применения  —  от простого обобщения и перевода текстов до прогнозирования курса акций на основе настроений и финансовых отчетов  —  важность текстовых данных как никогда велика. Существует множество типов документов, содержащих подобную неструктурированную информацию, от веб-статей и постов в блогах до рукописных писем и стихов. Однако значительная часть этих текстовых данных хранится и передается в формате PDF...
681 прочтение · 2 года назад
Python работа с файлами PDF
В данной статье мы рассмотрим работу с файлами PDF средствами Python. Мы изучим, основные инструменты: библиотеки и модули для работы с PDF файлами. Это статья начало серии статей, посвященных работе с PDF файлами средствами Python. В первой части, мы рассмотрим, основные Python библиотеки для работы с PDF файлами. Вторая часть будет посвящена работе с существующими файлами, чтение файлов, извлечение нужной информации, картинок из файла. Третья часть будет рассматривать вопросы создания PDF файлов...