125 читали · 1 год назад
Как распознать текст пдф
PDF-формат является одним из наиболее распространенных и удобных для обмена документами. Однако, если вам нужно работать или редактировать текст внутри PDF-файла, вы сталкиваетесь с проблемой его нераспознавания компьютером. В этой статье мы рассмотрим простой способ, как распознать текст в PDF-документе и обработать его на ПК или мобильном устройстве. Перед тем, как начать, давайте разберемся в терминологии. Распознавание текста в PDF процесс преобразования изображения текста в электронный формат, который компьютер может прочитать и обрабатывать...
331 читали · 10 месяцев назад
Поиск по содержимому документов (doc, xls, csv, rtf, pdf) Sphinx и PHP
Недавно в одном из проектов мне потребовалось решить задачу поиска по содержанию файлов популярных форматов, таких как doc, docx, xls, csv и pdf. В данной статье я хотел бы поделиться своим опытом написания скрипта на PHP для поиска по содержимому документа. Подготовка Перед тем как продолжить хочу уточнить, в статье я не буду рассказывать как установить Sphinx. Все ниже изложенное написано с тем учетом, что система Sphinx уже установлена и настроена. Так как Sphinx напрямую не может работать с файлами форматов ...