Сотни файлов на корпоративном сервере лежат мертвым грузом, потому что сотрудники не могут найти внутри них нужную информацию. Стандартный поиск видит только названия файлов. Если документ называется "Регламент_отдел_продаж_финал.pdf", найти в нем пункт о штрафах через строку поиска невозможно. Решение проблемы: массовый репарсинг документов, который извлекает текст из файлов и делает его доступным для поисковой машины. Репарсинг означает повторное чтение файла внутренним роботом системы для создания текстового индекса. Когда администратор загружает пачку старых регламентов в базу знаний через FTP или автоматические правила директорий (Directory Rules), система "видит" только оболочку файла. Чтобы заработал полнотекстовый поиск, специальный скрипт должен открыть каждый PDF или Word документ, скопировать оттуда все слова и записать их в базу данных Sphinx или MySQL. Сотрудники тратят 1.8 часа ежедневно на поиск информации, как показывает исследование McKinsey. Полнотекстовый поиск сокр
Как оживить старые архивы: Массовый репарсинг документов для полнотекстового поиска
7 апреля7 апр
3 мин