12 подписчиков

Как устроен индекс поиска?!

14 марта 202314 мар 2023

1 мин

Раннее в статье, я писал про то, как формируется поисковая выдача. В данном процессе присутствует индексация или индекс. Разберемся более подробно процесс индексации. Выделения чистого текста. В самом начале нужно убрать нетекстовые элементы , это например графика , разметка и т.д., требуется это для дальнейшей работы индексного робота. Он работает с чистым текстом. При работе робот , выделяет все слова и располагает их по алфавиту. У каждого поисковика , свое понимание, что можно считать словом, стандартов нет. Языковая обработка. Слова не заносятся в индекс в том виде, котором есть на сайте, слова приводятся к инфинитиву или именительному падежу. Это технология называется машинной морфологией. Составление индекса. Все слова, которые были получены роботов, упакуются в индекс , словарь, где указано слова и номер страницы где оно использовалось. В целом подход может меняться , но сама суть будет долго актуальна. Координатный индекс. В самом начале 90-ых, поисковики не запоминали распо

Раннее в статье, я писал про то, как формируется поисковая выдача. В данном процессе присутствует индексация или индекс. Разберемся более подробно процесс индексации.

Выделения чистого текста.

В самом начале нужно убрать нетекстовые элементы , это например графика , разметка и т.д., требуется это для дальнейшей работы индексного робота. Он работает с чистым текстом. При работе робот , выделяет все слова и располагает их по алфавиту. У каждого поисковика , свое понимание, что можно считать словом, стандартов нет.

Языковая обработка.

Слова не заносятся в индекс в том виде, котором есть на сайте, слова приводятся к инфинитиву или именительному падежу. Это технология называется машинной морфологией.

Составление индекса.

Все слова, которые были получены роботов, упакуются в индекс , словарь, где указано слова и номер страницы где оно использовалось. В целом подход может меняться , но сама суть будет долго актуальна.

Координатный индекс.

В самом начале 90-ых, поисковики не запоминали расположения слова, на странице, к слову только привязывалась страница, где оно используется, что сильно могло влиять на релевантность выдачи. В конечном итоге появился координатный индекс- индекс который учитывает положения слова на странице (знает координаты).

Цитаты в результате поиска.

Задумайтесь, если в индексе нет порядка слов, а слова расставляются в индексе по алфавиту, то как поисковик показывает целые цитаты с сайта?

Это происходит еще с помощью одного индекса - прямого индекса. По сути это сжатая текстовая копия страниц, всего интернета. Именно наличие копии страницы, поисковик может вам показывать цитаты. Есть еще одна функция "восстановления текста страницы", которая пригодится, если в данный момент страница недоступна или удалена.

Хотелось бы сказать что я обладаю информацией, но как автор- я дилетант. Если будут вопросы, задавайте. Возможно мой труд будет кому то полезен. Если не трудно - подпишись. Гарантирую обучающий контент. Спасибо