331 читали · 9 месяцев назад
Поиск по содержимому документов (doc, xls, csv, rtf, pdf) Sphinx и PHP
Недавно в одном из проектов мне потребовалось решить задачу поиска по содержанию файлов популярных форматов, таких как doc, docx, xls, csv и pdf. В данной статье я хотел бы поделиться своим опытом написания скрипта на PHP для поиска по содержимому документа. Подготовка Перед тем как продолжить хочу уточнить, в статье я не буду рассказывать как установить Sphinx. Все ниже изложенное написано с тем учетом, что система Sphinx уже установлена и настроена. Так как Sphinx напрямую не может работать с файлами форматов ...
9 месяцев назад
30 лучших инструментов для парсинга: от библиотек до готовых программ
Парсинг (также называемый извлечением данных из сети или сбором данных с веб-сайтов) представляет собой технику извлечения данных с веб-сайтов. Он преобразует веб-данные, разбросанные по страницам, в структурированные данные, которые можно сохранить на локальном компьютере в виде электронной таблицы или передать в базу данных. Для людей, не разбирающихся в программировании, создание парсера может быть сложной задачей. К счастью, существует программное обеспечение для сбора данных, предназначенное как для лиц с программированием, так и для тех, кто не обладает такими навыками...