Найти тему
Азбука SEO-эксперта

Как создать robots.txt

Оглавление

Robots.txt – это файл, который размещается в корневой папке сайта и содержит в себе параметры индексации. С помощью роботс можно закрыть доступ ботам к ресурсу или отдельным страницам (админка, системные файлы итд). Если robots.txt отсутствует или составлен неверно, сайт попадет в индекс поисковых систем вместе с нежелательными файлами.

Создать файл можно в текстовой редакторе, важно сохранить его в формате .txt с кодировкой UTF-8. После размещения файла в корневой папке, он должен быть доступен по адресу домен/robots.txt. Если ответ сервера – 200, это означает, что файл размещен корректно.

Структура

Роботс состоит из директив, между которыми располагаются пустые строки для разделения.

-2

Значение <поле> может быть заполнено одним из вариантов: User-agent (какому боту адресовано) или Disallow (что скрыть от бота).

Символ # означает комментарии.

Директивы robots.txt

Директивы задают параметры для каждого поисковика.

User-agent

Начальная директива «User-agent» выступает в качестве обращения к боту.

Ко всем: User-agent: * ;

К боту Яндекса: User-agent: Yandex;

К боту Google: User-agent: Googlebot.

Существует множество вредоносных ботов, от которых необходимо закрывать сайт (AhrefsBot, SemrushBot, Riddler и пр.)

Disallow и allow

Disallow – это запрещающая директива, allow напротив – разрешает индексацию.

Скрыть весь ресурс:

User-agent: *

Disallow: /

Если нужно скрыть отдельные документы, для каждого указывается свой disallow. С помощью комбинации этих директив можно открыть один файл, но закрыть весь сайт:

Allow: /blog

Disallow: /

Sitemap

В sitemap мы указывает адрес карты сайта, к примеру, https://site.ru/sitemap.xml. Карта может быть как одна, так и несколько, для каждого робота.

Crawl-Delay

С помощью этой директивы задается частота индексации. Это помогает избежать перегрузки сервера.

Например:

User-agent: Yandex

Crawl-delay: 2.0

# задает тайм-аут в 2 секунды

Clean-param

Clean-param используют, если URL страницы содержит идентификаторы пользователей или сессий (GET-параметры или UTM). Также эта директива помогает избежать повторной загрузки файлов.

Символ & необходим для перечисления параметров, которые не нужно индексировать. Для префикса используются исмволы: A-Za-z0-9.-/*.Максимальная длина - 500 символов.

Например:

-3

Справка Яндекс: https://yandex.by/support/webmaster/robot-workings/clean-param.html?lang=ru.

Host

На сегодняшний день директива host не используется!

Подробнее здесь: https://webmaster.yandex.ru/blog/301-y-redirekt-polnostyu-zamenil-direktivu-host

Подсказки

Для грамотного написания роботс используют символику:

* (звездочка) – любая последовательность символов;

$ (знак доллара) – конец строки;

# (решетка) – комментарий.

Корректность готового файла можно проверить в сервисах поисковых систем: Яндекс (https://webmaster.yandex.ru/tools/robotstxt/) и Google (https://support.google.com/webmasters/answer/6062598).

Также стоит помнить:

  • на сайте должен быть robots.txt;
  • размещается он только в корневой папке;
  • максимальный объем 500 кб;
  • кириллические URL-ы использовать нельзя, их нужно переформатировать с помощью Punycode (https://www.punycoder.com/).

С полным перечнем правил и рекомендаций можно ознакомиться в Cearch Console (https://support.google.com/webmasters/answer/6062596?hl=ru) и в Яндекс.Помощь (https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html).

Загрузка robots.txt на сайт

Для загрузки файла необходим доступ FTP от хостинга (логин и пароль). Когда вы авторизовались в системе, необходимо подключиться к серверу, где находятся файлы с вашего сайта. Там же будет находиться и роботс, который необходимо подключить с помощью логина, пароля, IP сервера и кода порта (чаще 21). После сохранения остается последний шаг – внести директивы.

Бесплатная программа Filezilla (https://filezilla.ru/) для подключения robots.txt/.

Если нужно продвинуть свой сайт, Вы знаете, куда обращаться.