140 читали · 2 года назад
Извлечение текста из PDF-файлов с помощью Python: исчерпывающее руководство
Источник: Nuances of Programming Введение В век больших языковых моделей (LLM) и их широкого применения  —  от простого обобщения и перевода текстов до прогнозирования курса акций на основе настроений и финансовых отчетов  —  важность текстовых данных как никогда велика. Существует множество типов документов, содержащих подобную неструктурированную информацию, от веб-статей и постов в блогах до рукописных писем и стихов. Однако значительная часть этих текстовых данных хранится и передается в формате PDF...
Фильтр ключевых слов по вхождению с помощью Python
Написал код для быстрой фильтрации списка фраз прямо из буфера обмена. В процессе создания списка ключевых фраз под рекламные кампании в Директ или Google Ads периодически требуется фильтровать группы слов для дальнейшей группировки под отдельные кампании. С изучением языка Python я придумал как ускорить работу. Для собственной реализации я написал скрипт с использованием библиотеки pyperclip, позволяющей тянуть информацию прямо из памяти компьютера. А больше полезных материалов можно найти в моём блоге...