Раннее в статье, я писал про то, как формируется поисковая выдача. В данном процессе присутствует индексация или индекс. Разберемся более подробно процесс индексации.
Выделения чистого текста.
В самом начале нужно убрать нетекстовые элементы , это например графика , разметка и т.д., требуется это для дальнейшей работы индексного робота. Он работает с чистым текстом. При работе робот , выделяет все слова и располагает их по алфавиту. У каждого поисковика , свое понимание, что можно считать словом, стандартов нет.
Языковая обработка.
Слова не заносятся в индекс в том виде, котором есть на сайте, слова приводятся к инфинитиву или именительному падежу. Это технология называется машинной морфологией.
Составление индекса.
Все слова, которые были получены роботов, упакуются в индекс , словарь, где указано слова и номер страницы где оно использовалось. В целом подход может меняться , но сама суть будет долго актуальна.
Координатный индекс.
В самом начале 90-ых, поисковики не запоминали расположения слова, на странице, к слову только привязывалась страница, где оно используется, что сильно могло влиять на релевантность выдачи. В конечном итоге появился координатный индекс- индекс который учитывает положения слова на странице (знает координаты).
Цитаты в результате поиска.
Задумайтесь, если в индексе нет порядка слов, а слова расставляются в индексе по алфавиту, то как поисковик показывает целые цитаты с сайта?
Это происходит еще с помощью одного индекса - прямого индекса. По сути это сжатая текстовая копия страниц, всего интернета. Именно наличие копии страницы, поисковик может вам показывать цитаты. Есть еще одна функция "восстановления текста страницы", которая пригодится, если в данный момент страница недоступна или удалена.
Хотелось бы сказать что я обладаю информацией, но как автор- я дилетант. Если будут вопросы, задавайте. Возможно мой труд будет кому то полезен. Если не трудно - подпишись. Гарантирую обучающий контент. Спасибо