Раннее в статье, я писал про то, как формируется поисковая выдача. В данном процессе присутствует индексация или индекс. Разберемся более подробно процесс индексации. Выделения чистого текста. В самом начале нужно убрать нетекстовые элементы , это например графика , разметка и т.д., требуется это для дальнейшей работы индексного робота. Он работает с чистым текстом. При работе робот , выделяет все слова и располагает их по алфавиту. У каждого поисковика , свое понимание, что можно считать словом, стандартов нет. Языковая обработка. Слова не заносятся в индекс в том виде, котором есть на сайте, слова приводятся к инфинитиву или именительному падежу. Это технология называется машинной морфологией. Составление индекса. Все слова, которые были получены роботов, упакуются в индекс , словарь, где указано слова и номер страницы где оно использовалось. В целом подход может меняться , но сама суть будет долго актуальна. Координатный индекс. В самом начале 90-ых, поисковики не запоминали распо