Найти тему
Это дизайн, детка!)

Из чего состоит и как работает поисковая система Яндекс и Google?

Оглавление

Давайте разберемся, из чего состоит поисковая система и как она работает. Нужно отметить, что принципы действия у любого поисковика схожи: Яндекс, Google и другие поисковики работают по аналогичным алгоритмам, которые отличаются нюансами.

История развития поисковиков: не путайте Wandex и Yandex!

Начнем с истории: первый в мире поисковик в WWW появился в 1993 году, и это был Wandex. Не путайте с Яндексом. После него появились Aliweb, Webcrawler, Lycos, Altavista, Рамблер, Google и только потом Яндекс.

Первым именно российским поисковиком был Рамблер. Сейчас Рамблер все еще существует, но для поиска использует движок Яндекса. На его долю приходится около 1% от всех поисковых запросов.

Самой популярной поисковой системой в России на момент подготовки статьи является Яндекс, который используют для поиска информации около 61% россиян по данным РБК. На втором месте по количеству пользователей в России идет Google – около 26%, но в последнее время процент пользователей Google растет. Обе поисковые системы были запущены в 1997 году, но в Россию Google пришел гораздо позже (официально – в 2006 году).

Перейдем к вопросу, как устроена и как работает поисковая система

Поисковая система состоит из трех основных элементов:

1. Роботы-пауки (агенты, роботы, обходящие все интернет пространство, и сканирующие сайты)

У поисковой системы существует множество роботов-агентов, каждый из них выполняет свою функцию:

  • основной работ, сканирующий сайты;
  • робот, сканирующий картинки;
  • робот, сканирующий видео;
  • робот мобильных сервисов;
  • быстроробот выполняет функцию сбора свежей информации и новостей для индексации;
  • другие роботы.

У каждого робота есть список адресов, которые он должен обойти. Этот список автоматически увеличивается, если робот находит новую ссылку и адрес сайта. Робот проверяет тип найденного документа, кодировку и язык и отправляет эти данные на дальнейшую обработку.

2. Индекс (база документов и дополнительных параметров в обработанном виде)

Индекс – это хранилище поисковой системы, где вся информация находится в обработанном и упорядоченном виде. Например, документы хранятся в очищенном от html-разметки виде, в индексе имеются данные о местоположении различных слов в документе и другая информация. Индекс обновляется постоянно.

В ряде поисковых систем имеются выраженные апдейты. В этом случае полноценное обновление поискового индекса, на основе которого формируются результаты поиска, происходит не постоянно, а через некоторое время. Апдейт – это момент обновления поисковой системы, в который результаты поиска по многим запросам серьезно меняются.

3. Поисковый алгоритм (механизм, который позволяет формировать выдачу)

Когда в поисковую систему поступает запрос, алгоритмы поисковой системы обрабатывают его. В обработанном виде он поступает дальше в систему.

Если запрос популярный, результаты поиска по нему могут кешироваться (сохраняться в поисковой системе) и в дальнейшем при поступлении такого же запроса результаты поиска поднимаются из кеша. Если запрос уникальный, то поисковые алгоритмы на основе имеющихся в них формул формируют ответ на запрос из индекса поисковой системы.

Формула, по которой формируются результаты поиска, может отличаться в зависимости от запроса, его типа (коммерческий, информационный, навигационный и т.д.), географии (формула для региональных запросов может быть проще, чем для московского региона).

Мы рассмотрели упрощенную модель поисковой системы. Реальные поисковые системы намного сложнее и включают в себя механизмы борьбы по спамом, колдунщики и множество других вещей.

Что такое машинное обучение?

Поисковая система Яндекс создает формулы для ранжирования сайтов на основе машинного обучения.

Очень упрощенно данную систему можно представить так:

  • В программу машинного обучения загружаются факторы, по которым осуществляется ранжирование документов, и отранжированные результаты поиска по множеству запросов. Программа ищет закономерности между результатами поиска и факторами «хороших» и «плохих» страниц. Найденные закономерности включаются в формулу ранжирования. Например, если на всех «хороших» сайтах фон был синим, а на всех «плохих» – желтым, то программа может заложить в формулу повышение позиций страниц с синим фоном и занижение позиций страниц с желтым фоном.
  • Полученные формулы тестируются, и разработчики по определенным параметрам определяют, улучшилось качество поиска по новым формулам или нет.
  • Если качество поиска повысилось – формулы загружаются в основной поиск и начинают обрабатывать пользовательские запросы.

Резюме: как работает поисковик?

Как мы видим, даже упрощенная модель работы поисковой системы достаточно сложна и состоит из множества систем. Реальные же поисковые системы намного сложнее, поэтому процесс продвижения сайтов представляется не только сложным, но и крайне интересным.

В данный момент при ранжировании сайтов поисковая система Google учитывает более 200 факторов, а поисковик Яндекс - более 800 факторов. Все они подразделяются на группы: технические, доменные, текстовые, ссылочные, региональные, поведенческие, коммерческие, юзабилити и ряд других.