331 читали · 9 месяцев назад
Поиск по содержимому документов (doc, xls, csv, rtf, pdf) Sphinx и PHP
Недавно в одном из проектов мне потребовалось решить задачу поиска по содержанию файлов популярных форматов, таких как doc, docx, xls, csv и pdf. В данной статье я хотел бы поделиться своим опытом написания скрипта на PHP для поиска по содержимому документа. Подготовка Перед тем как продолжить хочу уточнить, в статье я не буду рассказывать как установить Sphinx. Все ниже изложенное написано с тем учетом, что система Sphinx уже установлена и настроена. Так как Sphinx напрямую не может работать с файлами форматов ...
124 читали · 10 месяцев назад
Лучшие инструменты скрапинга в 2024: От SaaS-парсеров до самодельных решений
Когда вам нужно извлечь информацию из Интернета, вы неизбежно столкнетесь с термином «веб-скрапинг», он же «парсинг данных» в русскоязычной среде. В то же время вы найдете огромное количество сервисов и инструментов, которые стремятся помочь вам в вашем начинании. При таком большом количестве, к сожалению, не всегда легко быстро найти нужный инструмент для конкретного случая и сделать правильный выбор. Именно это мы и хотим рассмотреть в сегодняшней статье. Мы рассмотрим инструменты, как коммерческие,...