Найти тему
Sphinx IT

Что необходимо знать о robots.txt для WordPress

Оглавление

Подробный мануал от Sphinx IT о составлении файла robots.txt: как адаптировать под требования поисковых систем, найти на сайте и написать с нуля. Два способа поиска мусорных страниц для блокировки. Дефолтный шаблон. Управляйте индексацией своего ресурса грамотно.

Что и для чего

Robots.txt — документ в текстовом формате с инструкциями для поисковых роботов. Перед началом сканирования сайта, боты ищут файл роботс, чтобы понимать на что не стоит тратить время при обходе.

Необходим он для того, чтобы в индекс не попадали лишние страницы, которые не несут необходимой информации ни для поиска, ни для пользователя и нам не нужно их нахождение в выдаче.

Есть такое понятие как краулинговый бюджет — лимит url’ов, доступных для обхода роботом на один заход, который определяется для каждого ресурса по-разному. Проще говоря вместо того, чтобы сканировать страницу с восстановлением пароля, следует дать страницу новой статьи из блога.

Где найти

Где лежит robots.txt в WordPress? В самой админке его по умолчанию нет, док находится на ftp хостинга в корневой папке.

Где лежит robots.txt в WordPress
Где лежит robots.txt в WordPress

Что содержит

Примеры страниц для блокировки:

  • поиск по сайту,
  • страницы личного кабинета (логин, регистрация, восстановление пароля и проч.),
  • корзина, оформление и благодарность за заказ,
  • параметры сортировки, фильтрации, сравнения, wish листы,
  • дубли,
  • мусорные страницы,
  • недостаточно качественные страницы,
  • профили зарегистрированных,
  • вход в админку,
  • также мы всегда закрываем страницы с информацией о персональных данных.

Шаблон

Ниже мы составили пример базового файла robots.txt для цмс WordPress — здесь список команд, которые есть на любом сайте. На основе этого файла можно вносить индивидуальные директивы.

User-agent: *

Allow: *.js

Allow: /wp-content/*.js

Allow: /wp-includes/*.js

Allow: *.css

Allow: /wp-content/*.css

Allow: *.jpg

Allow: /wp-content/*.jpg

Allow: *.png

Allow: /wp-content/*.png

Disallow: /author/

Disallow: /*?

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Sitemap:

После инструкции для всех роботов из примера выше идут персональные инструкции для поисковых систем Яндекс и Google с названием User-agent: Yandex и User-agent: Googlebot соответственно. Содержание инструкций друг от друга практически не отличается (если не предусмотрено стратегией продвижения).

В робот тхт иногда указывают ссылку на карты сайта, но это не обязательно — в каждом кабинете вебмастера его можно загрузить напрямую.

Как сделать

Правильный robots.txt для WordPress создаётся в программе Блокнот (а лучше в Notepad++). В него вносим все код-команды, сохраняем под именем robots, загружаем на фтп, удостоверившись, что он сохранился в формате txt в нижнем регистре. Вносить изменения можно в любое время и применяются они моментально. После загрузки он будет доступен по ссылке robots.txt после домена, например, http://sphinx-it.ru/robots.txt.

Со всеми командами для обхода можно ознакомиться в помощи от каждой поисковой системы.

Особенности некоторых директив

Директиву Crawl-delay (таймаут загрузки между страницами для роботов в секундах) использовать не рекомендуем, т.к. это почти всегда приводит к проблемам индексации. Если вы задумались, что такая директива нужна — меняйте хостинг.

Крайне важно следить за знаками пробелов и перевода строки. Пробелы ставим только между командами, например, Disallow: пробел инструкция. Ни в конце строки, ни в начале их быть не должно. Перевод строки используем только между блоками команд для робота: написали инструкцию, разделили, тем самым обозначили конец правил для поискового робота.

Каждая команда пишется на новой строке.

Знак звёздочки* в роботс.тхт — компонент регулярного выражения для последовательности любых символов в месте, где они обычно находятся. Например, в нашем robots.txt для Вордпресс инструкция *.jpg означает любые знаки файла jpg-формата, а /wp-includes/*.js символы, расположенные между https://sphinx-it.ru/wp-includes/ и js.

robots.txt для WordPress
robots.txt для WordPress

Бывает, что в инструкции допущены ошибки (видели и такое, что один неверный знак полностью закрыл сайт от индексации), поэтому проверить стоит напрямую у роботов в сервисе для вебмастеров.

Плагины

Существует множество плагинов для Вордпресс, которые в режиме реального времени обновляют ваш файл роботс, но использовать их мы крайне не рекомендуем. Проще всего потратить некоторое время на изучение этого инструмента и дополнять его по мере возможности (раз в два месяца, например), чем плодить их избыток, что создаёт повышенную нагрузку на хостинг и негативно сказывается на скорости работы сайта. Собственно, именно поэтому здесь мы их рассматривать не будем.

Что нужно закрыть

Если вы готовите роботс тхт в Вордпрессе впервые и не знаете что происходит внутри сайта, то рекомендуем два способа.

Способ раз

  1. парсинг всех страниц сайта (например, с помощью Screaming Frog Seo Spider);
  2. после остановки процесса сбора пробегаем глазами все урлы на предмет лишних или неестественных знаков и соотносим между собой со строками Content и Status code (если используете Лягушку);
  3. вносим изменения в robots.txt, прогоняем через вебмастера, перезапускаем парсер для проверки.

Способ два

Проверить качество индексации мы можем и в выдаче самой поисковой системы по домену. Ищем подозрительные страницы и закрываем их от индекса.

Авторский материал агентства Sphinx IT специально для Дзен.

И как обычно, ждём комментарии!