Найти тему

Как составить robots.txt самостоятельно

Оглавление

И зачем это вообще нужно для сайта.

Привет, это PR-CY! Мы создатели онлайн-сервиса для анализа сайта и проверки позиций! В блоге публикуем много полезного о продвижении.

В статье о том, как правильно составить robots.txt, зачем это вообще делать и как проверить, что вы правильно составили файл, с помощью онлайн-инструментов.

Как поисковики сканируют страницу и при чем тут файл robots.txt

Роботы-краулеры Яндекса и Google посещают страницы сайта, оценивают их содержимое и добавляют их в индексную базу поисковика.

Боты посещают страницы регулярно, чтобы переносить в базу обновления контента, отмечать появление новых ссылок и их доступность.

Боты смотрят не все страницы сайта. Количество ограничено краулинговым бюджетом, который складывается из количества URL, которое может просканировать бот-краулер.

Бюджета на объемный сайт может не хватить. Есть риск, что краулинговый бюджет уйдет на сканирование неважных или «мусорных» страниц, а чтобы такого не произошло, веб-мастеры направляют краулеров с помощью файла robots.txt — это текстовый файл с указаниями, какие страницы стоит индексировать, а какие не нужно.

Боты переходят на сайт и находят в корневом каталоге файл robots.txt, анализируют доступ к страницам и переходят к карте сайта — Sitemap, чтобы сократить время сканирования, не обращаясь к закрытым ссылкам. После изучения файла боты идут на главную страницу и оттуда переходят в глубину сайта.

Содержимое файла robots.txt — это рекомендации для поисковых ботов, а не команды.

Большинство поисковых ботов воспринимают файл, но могут проигнорировать указания в нем. Например, если в файле
robots.txt вы запретили индексировать страницу, но на нее ведут ссылки с других ресурсов, бот все равно может ее приоиндексировать.

Какие страницы краулер просканирует быстрее:

  • Находятся ближе к главной.
    Чем меньше кликов с главной ведет до страницы, тем она важнее и тем вероятнее ее посетит краулер. Количество переходов от главной до текущей страницы называется Click Distance from Index (DFI).
  • Имеют много ссылок.
    Если многие ссылаются на страницу, значит она полезная и имеет хорошую репутацию. Нормальным считается около 11-20 ссылок на страницу, перелинковка между своими материалами тоже считается.
  • Быстро загружаются.
    Проверьте скорость загрузки
    инструментом, если она медленная — оптимизируйте код верхней части и уменьшите вес страницы.

Как создать robots.txt для ботов Яндекса и Google

В robots.txt можно открыть или закрыть доступ ко всем файлам или отдельно прописать, какие файлы можно сканировать, а какие нет.

Это позволяет ботам уменьшить количество запросов к серверу и не тратить время на неинформативные, одинаковые и неважные страницы.

Требования к robots.txt совпадают у обеих ПС:

  • файл называется "robots.txt", название написано только строчными буквами, "Robots.TXT" и другие вариации не поддерживаются;
  • располагается только в корневом каталоге — https://site.com/robots.txt, в подкаталоге быть не может;
  • на сайте в единственном экземпляре;
  • имеет формат .txt;
  • весит до 32 КБ;
  • в ответ на запрос отдает HTTP-код со статусом 200 ОК;
  • каждый префикс URL на отдельной строке;
  • содержит только латиницу.

Если домен на кириллице, для robots.txt переведите все кириллические ссылки в Punycode с помощью любого Punycode-конвертера: "сайт.рф" — "xn--80aswg.xn--p1ai".

Robots.txt действует для HTTP, HTTPS и FTP, имеет кодировку UTF-8 или ASCII и направлен только в отношении хоста, протокола и номера порта, где находится.

Его можно добавлять к адресам с субдоменами — http://web.site.com/robots.txt или нестандартными портами — http://site.com:8181/robots.txt. Если у сайта несколько поддоменов, поместите файл в корневой каталог каждого из них.

Как исключить страницы из индексации с помощью robots.txt

В файле robots.txt можно запретить ботам индексацию некоторого контента.

Веб-мастер может скрыть содержимое от индексирования ботами Яндекса, указав директиву "disallow". Тогда при очередном посещении сайта робот загрузит файл robots.txt, увидит запрет и проигнорирует страницу.

Google предупреждает, что robots.txt не предусмотрен для блокировки показа страниц в результатах выдачи. Он позволяет запретить индексирование только некоторых типов контента: медиафайлов, неинформативных изображений, скриптов или стилей. Исключить страницу из выдачи Google можно с помощью пароля на сервере или элементов HTML — "noindex" или атрибута "rel" со значением "nofollow".

Если на этом или другом сайте есть ссылка на страницу, то она может оказаться в индексе, даже если к ней закрыт доступ в файле robots.txt.

Закройте доступ к странице паролем или "nofollow" , если не хотите, чтобы она попала в выдачу. Если этого не сделать, ссылка попадет в результаты но будет выглядеть так:

Так выглядит ссылка, к которой бот не может составить описание
Так выглядит ссылка, к которой бот не может составить описание

Такой вид ссылки означает, что страница доступна пользователям, но бот не может составить описание, потому что доступ к ней заблокирован в robots.txt.

Как составить robots.txt правильно

Файл можно составить в любом текстовом редакторе и сохранить в формате txt. В нем нужно прописать инструкцию для роботов: указание, каким роботам реагировать, и разрешение или запрет на сканирование файлов.

Инструкции отделяют друг от друга переносом строки.

Символы robots.txt

  • "*" — означает любую последовательность символов в файле.
  • "$" — ограничивает действия "*", представляет конец строки.
  • "/" — показывает, что закрывают для сканирования.
  • "/catalog/" — закрывают раздел каталога;
  • "/catalog" — закрывают все ссылки, которые начинаются с "/catalog".
  • "#" — используют для комментариев, боты игнорируют текст с этим символом.

User-agent: *
Disallow: /catalog/

#запрещаем сканировать каталог

Мы советуем не тратить время на ручное составление файла, а использовать сервисы.

Инструменты для составления и проверки robots.txt

Инструмент для генерации robots.txt поможет составить файл бесплатно.

Позволяет закрыть или открыть весь сайт для ботов, указать путь к карте сайта, настроить ограничение на посещение страниц, закрыть доступ некоторым роботам и установить задержку:

Графы инструмента для заполнения
Графы инструмента для заполнения

Как проверить файл robots.txt на ошибки

У поисковиков есть собственные инструменты:

  1. Инструмент проверки файла robots.txt от Google позволит проверить, как бот видит конкретный URL. В поле нужно ввести проверяемый URL, а инструмент покажет, доступна ли ссылка.
  2. Инструмент проверки от Яндекса покажет, правильно ли заполнен файл. Нужно указать сайт, для которого создан robots.txt, и перенести его содержимое в поле.

Файл robots.txt не подходит для блокировки доступа к приватным файлам, но направляет краулеров к карте сайта и дает рекомендации для быстрого сканирования важных материалов ресурса.