Найти тему
Malov SEO

Как работает Google Caffeine?

Оглавление

Всем привет, с вами Саня и Malov SEO и сегодня у нас спецвыпуск.

Я наткнулся на статью о том, что рассказывает Гэри Илш о новой системе индексирования Гугла. Это очень интересно и важно.

Я приведу сам текст статьи, а также расскажу ниже, какие сделал выводы из всего этого.

Текст статьи на русском языке:

В новом выпуске подкаста Search Off the Record сотрудник Google Гэри Илш объяснил, что делает система Caffeine.

Caffeine – это система индексирования Google. При этом «Caffeine» – это внешнее название, внутри она называется иначе.

Илш отметил, что данная система выполняет большой круг задач, при этом вне компании многие об этом не знают. Поэтому он решил рассказать об этом подробнее.

По его словам, в целом Caffeine «поглощает» всё, что генерирует Googlebot, который является буфером протокола, а также собирает сигналы и выполняет другие задачи, после чего произведённая Caffeine информация добавляется в поисковый индекс.

  • Что происходит внутри Caffeine?

На самом первом этапе это поглощение буфера протокола. После этого идёт конвертация буфера протокола в другой формат и нормализация HTML – весь HTML пропускается через HTML-лексер (т.е. проходит лексический анализ). Далее наступает черёд тегов заголовка (h1, h2 и т.д.). Они также нормализуются в процессе рендеринга. Google пытается понять, какие стили применены к заголовкам, чтобы определить их важность относительно друг друга.

Илш также отметил, что Google может индексировать большое количество форматов, включая PDF. Поисковая система использует инструмент декодирования от Adobe, с помощью которого конвертирует PDF в HTML и далее уже работает с ним. Похожий процесс происходит со всеми бинарными форматами, которые Google способен индексировать: они также нормализуются и переводятся в HTML.

После этого Google анализирует метатеги, поскольку есть несколько метатегов, которым поисковик уделяет особое внимание – например, «robots». Что касается такого метатега, как keywords, то Google вообще не обращает на него внимания.

В Caffeine есть ещё одна подсистема, связанная с конвертером. В Google её называют «коллапсер». Она выполняет обработку страниц ошибок (404, 200 и т.п.).

Google не хочет видеть страницы с ошибкой soft 404 в своём индексе, поэтому поисковик пытается определить, когда возникают эти ошибки, когда они показываются. И это то, чем занимается подсистема под названием «коллапсер».

У Google есть большие корпуса страниц с ошибками, и поисковик затем пытается сопоставить текст текущей страницы с ними. Это в свою очередь может приводит к «забавным багам», когда, например, в статье идёт речь о страницах с ошибками в целом, а Google не может индексировать эту статью. Иногда системы обработки страниц с ошибками некорректно определяют статью, исходя из используемых в ней ключевых слов, как страницу с ошибкой soft 404. И это заставляет Caffeine остановить процесс обработки страницы.

Caffeine также пытается определить страницы авторизации, т.е. Google о них знает.

Как видим, круг задач, выполняемых этой системой, действительно большой.

Выводы:

1) Важна валидность кода.
Если у вас всё на диких костылях, нет семантических тегов, много закомментированного кода и так далее, то у Google возникнут трудности. Наверняка за этим проследует пессимизация.

2) Важность заголовка определяется не тегами h1-h6, а их расположением и оформлением. Теперь точно h1, который оформлен как обычный <p> не будет восприниматься как главный заголовок. (Мы конечно всегда догадывались, но подобное подтверждение это всегда гарантия).

3) Keywords R.I.P.
Да, ничего нового, но есть те, кто верит в необходимость использования ключевиков.

4) Метатеги уступают заголовкам в приоритете проверок.
Соответственно noindex, который, как всем всегда казалось защищает страницу от проверки ботами срабатывает после проверки контента. Возможно ли выпадение из индекса страниц, которые дублируют страницы, по умолчанию запрещенные к индексации пока не ясно, но я не исключаю, покажет время и эксперименты.

5) Продвижение по PDF.
Раньше все считали, что такие файлы продвигаются при помощи заголовков и анкоров, как оказалось, нет. Стоит обратить на это внимание, если у вас много страниц, доступных для скачивания.

6) 404 станут удаляться проще.
Иногда возникают проблемы с удалением 404 из индекса, теперь появился дополнительный помощник. Главное, чтобы система не работала слишком хорошо и из индекса не выбрасывало страницы, которые не были доступны в течение 10 минут из-за сбоя на сервере или по иной причине нарушения доступности.

Спасибо за внимание и обширных вам индексаций.
Есть какие-то мысли на этот счет, ныряй в комменты и делись своими выводами.