Поисковые системы для ответа на запрос пользователя используют индекс: базу данных ключевых слов, которым соответствуют адреса страниц, где встречаются эти слова. После введения запроса поисковик сопоставляет слова из него со словами в базе, составляет список релевантных страниц, ранжирует эти страницы и показывает пользователю.
Индексация сайта – это добавление его страниц в индекс поисковой системы. В результатах поиска отображаются только проиндексированные страницы. Этот принцип применяется в Яндекс, Google и других поисковиках. Подробнее о работе поисковых систем мы рассказывали здесь.
Как составляется индекс
Поисковый робот получает маршрут с адресами страниц, которые нужно проиндексировать. В этот список попадают
- адреса, добавленные через панели веб-разработчика;
- документы, на которые ссылаются внешние ресурсы;
- URL, на которые есть ссылки с уже проиндексированных страниц сайта;
- страницы, у которых наступил срок переобхода;
- страницы, которые находит робот при обходе всего Интернета и другие страницы, выбранные поисковым алгоритмом.
Робот выкачивает содержимое документов, после чего начинается индексация.
Проверяется соответствие контента требованиям поисковика (отсеивается спам, запрещенный контент).
Если страница соответствует, начинается деление текста на слова, анализ слов и фраз, распределение по уже имеющейся базе, добавление информации о новых страницах, релевантных выделенным из текста поисковым запросам.
Процесс занимает от нескольких минут до нескольких дней. Чем быстрее страница проиндексирована, тем быстрее она примет участие в ранжировании.
От чего зависит скорость индексации
- Частота добавления контента. Чем чаще добавляются новые страницы, тем чаще поисковый робот заходит на сайт.
- Ссылки. И внешние, и внутренние ссылки сообщают поисковику о новом материале.
- Дополнительные инструменты. Подключение RSS, репосты в социальных сетях, заказ рекламы у поисковиков с посадкой на новую страницу.
- Техническая реализация. Подробнее технические моменты разберем ниже.
Настройка корректной индексации
В алгоритмах поисковых систем есть роботы для парсинга всей Сети. Они обходят все найденные в Интернете адреса и рано или поздно с высокой вероятностью попадут на ваш сайт. Но ждать, когда система сама узнает о новом ресурсе, долго. Кроме того, нужно задать правила индексирования.
1. Файл robots.txt. В него записывается набор правил для поискового робота. Правила задаются сразу для всех поисковиков или для каждой системы отдельно. В robots.txt можно исключить из индекса технические страницы, указать URL c UTM-метками, которые не нужно учитывать.
Запреты нужны не только для исключения из поиска неинформативных внутренних страниц. Они напрямую влияют на индексацию. У робота ограниченное время на посещение одного сайта (краулинговый бюджет). Важно, чтобы весь бюджет расходовался на обработку нужных страниц.
На сайтах интернет-магазинов генерируется огромное количество адресов товарных корзин пользователей, результатов внутреннего поиска. Инструкции Disallow: /bin/ # (для корзин) и Disallow: /search/ # (для поиска) закрывают от индексации эти документы.
Также в robots.txt задается адрес файла sitemap.xml.
2. Файл sitemap.xml. В нем находятся адреса всех страниц сайта, которые требуется проиндексировать.
В записи для каждой страницы указан ее URL, дата последнего изменения <lastmod>, приоритетность <priority>. По тегу <lastmod> поисковый робот узнает, что страница была обновлена и ее нужно переиндексировать. Тег <priority> задает приоритетность в очереди на индексацию. Назначается от 0 до 1. Главной странице присваивается значение 1, остальным от 0,9 до 0. Если коэффициент не указан, поисковик будет считать его равным 0,5.
Нельзя, чтобы sitemap.xml и robots.txt противоречили друг другу. Адреса закрытых от индексации страниц не должны попадать в файл sitemap.xml.
Добавление сайта в панель Яндекс.Вебмастер и Google Search Console. После подготовки указаний для поисковиков сайт добавляется в панели вебмастера. Для нового сайта можно добавить адрес главной страницы. Дальше роботы сами обойдут все страницы, ориентируясь на sitemap.xml, robots.txt, внутреннюю перелинковку. Если требуется добавить в индекс выборочные страницы, переиндексировать документ после внесения изменений, в Яндексе используется инструмент «Переобход страниц»:
В Google запросить индексацию страницы можно в панели проверки адресов:
Важно: добавление в панели Яндекса или в Google не означает автоматическое добавление в индекс. Это способ уведомить поисковик о том, что сайт нужно проиндексировать.
3. Структура сайта. В идеале структура сайта продумывается на этапе разработки. Желательно избегать многоуровневой вложенности. Оптимально – не более трех уровней от корня сайта. Более глубокие уровни индексируются дольше. Если на сайте есть дубли документов, отмечаются канонические URL для поисковиков.
4. Внутренняя перелинковка. При скачивании страницы роботы формируют список найденных на ней гиперссылок и добавляют их в план обхода. Чем больше ссылочных связей между страницами внутри сайта, тем быстрее пройдет индексация всех страниц.
5. Ответы сервера. Страницы для индексации должны отдавать код 200. Если документ перемещен, настраивается 301 редирект. Неправильно настраивать несколько редиректов – сначала с одной страницы на другую, потом на третью. Это также замедляет индексацию. Перенаправление делается сразу на конечный URL.
6. Валидность кода. Код можно проверить сервисом validator.w3.org. Важно, чтобы текстовые блоки и внутренние ссылки не были закрыты тегом <noindex>. Страница должна корректно отображаться во всех браузерах.
7. Доступность сервера. Во время обхода сервер должен работать. Если проблемы с работой сервера возникают регулярно, стоит сменить хостера.
Как ускорить индексацию
1) Добавить ссылки с главной страницы на новые или важные страницы сайта.
Например, для новостного портала это может быть блок «Последние публикации», для интернет-магазина – «Новинки»:
Ссылки с главной укажут путь роботу. После того, как страницы попадут в индекс, в блок выводятся другие документы.
2) Разместить внешние ссылки на авторитетных, быстро индексируемых ресурсах.
Для быстрой индексации активно обновляющихся сайтов с высокой трастовостью используются быстроботы. Они следят за обновлениями в тех разделах, где высокая активность, и добавляют их в индекс в течение нескольких минут после релиза. Ссылка от такого донора ускорит индексацию. Но только в том случае, если будет идти с раздела, который попадает в зону действия быстробота.
3) Регулярно размещать контент.
Чем чаще публикуется контент, тем быстрее индексируется сайт.
4) Указать скорость обхода в настройках Яндекс.Вебмастера.
Скорость обхода – количество запросов к серверу в секунду от поискового робота. Это альтернатива инструкции Crawl-delay в robots.txt. Бывает, что разработчики при указании скорости ориентируются не на фактические возможности сервера, а на значения, подсмотренные у других разработчиков. В результате скорость обхода сильно снижается, краулинговый бюджет тратится на простой, скорость индексации падает. Инструмент автоматически рассчитывает оптимальную скорость, но значения можно изменить вручную:
5) Подключить обход по счетчикам Яндекс.Метрики.
При интеграции Метрики и Вебмастера можно передавать код страницы с установленным счетчиком на индексацию автоматически.
Почему сайт не индексируется или выпал из индекса
- Допущены ошибки в технической части.
- Обнаружен неоригинальный контент.
- Наложены санкции поисковых систем.
- Есть проблемы с доступностью сервера.
В панели вебмастера вы можете узнать о возможных причинах. Рекомендуем последовательно проверить все настройки сайта. Чек-лист для проверки настроек смотрите в этой статье. Удачного продвижения!