Robots.txt – это файл, который размещается в корневой папке сайта и содержит в себе параметры индексации. С помощью роботс можно закрыть доступ ботам к ресурсу или отдельным страницам (админка, системные файлы итд). Если robots.txt отсутствует или составлен неверно, сайт попадет в индекс поисковых систем вместе с нежелательными файлами.
Создать файл можно в текстовой редакторе, важно сохранить его в формате .txt с кодировкой UTF-8. После размещения файла в корневой папке, он должен быть доступен по адресу домен/robots.txt. Если ответ сервера – 200, это означает, что файл размещен корректно.
Структура
Роботс состоит из директив, между которыми располагаются пустые строки для разделения.
Значение <поле> может быть заполнено одним из вариантов: User-agent (какому боту адресовано) или Disallow (что скрыть от бота).
Символ # означает комментарии.
Директивы robots.txt
Директивы задают параметры для каждого поисковика.
User-agent
Начальная директива «User-agent» выступает в качестве обращения к боту.
Ко всем: User-agent: * ;
К боту Яндекса: User-agent: Yandex;
К боту Google: User-agent: Googlebot.
Существует множество вредоносных ботов, от которых необходимо закрывать сайт (AhrefsBot, SemrushBot, Riddler и пр.)
Disallow и allow
Disallow – это запрещающая директива, allow напротив – разрешает индексацию.
Скрыть весь ресурс:
User-agent: *
Disallow: /
Если нужно скрыть отдельные документы, для каждого указывается свой disallow. С помощью комбинации этих директив можно открыть один файл, но закрыть весь сайт:
Allow: /blog
Disallow: /
Sitemap
В sitemap мы указывает адрес карты сайта, к примеру, https://site.ru/sitemap.xml. Карта может быть как одна, так и несколько, для каждого робота.
Crawl-Delay
С помощью этой директивы задается частота индексации. Это помогает избежать перегрузки сервера.
Например:
User-agent: Yandex
Crawl-delay: 2.0
# задает тайм-аут в 2 секунды
Clean-param
Clean-param используют, если URL страницы содержит идентификаторы пользователей или сессий (GET-параметры или UTM). Также эта директива помогает избежать повторной загрузки файлов.
Символ & необходим для перечисления параметров, которые не нужно индексировать. Для префикса используются исмволы: A-Za-z0-9.-/*.Максимальная длина - 500 символов.
Например:
Справка Яндекс: https://yandex.by/support/webmaster/robot-workings/clean-param.html?lang=ru.
Host
На сегодняшний день директива host не используется!
Подробнее здесь: https://webmaster.yandex.ru/blog/301-y-redirekt-polnostyu-zamenil-direktivu-host
Подсказки
Для грамотного написания роботс используют символику:
* (звездочка) – любая последовательность символов;
$ (знак доллара) – конец строки;
# (решетка) – комментарий.
Корректность готового файла можно проверить в сервисах поисковых систем: Яндекс (https://webmaster.yandex.ru/tools/robotstxt/) и Google (https://support.google.com/webmasters/answer/6062598).
Также стоит помнить:
- на сайте должен быть robots.txt;
- размещается он только в корневой папке;
- максимальный объем 500 кб;
- кириллические URL-ы использовать нельзя, их нужно переформатировать с помощью Punycode (https://www.punycoder.com/).
С полным перечнем правил и рекомендаций можно ознакомиться в Cearch Console (https://support.google.com/webmasters/answer/6062596?hl=ru) и в Яндекс.Помощь (https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html).
Загрузка robots.txt на сайт
Для загрузки файла необходим доступ FTP от хостинга (логин и пароль). Когда вы авторизовались в системе, необходимо подключиться к серверу, где находятся файлы с вашего сайта. Там же будет находиться и роботс, который необходимо подключить с помощью логина, пароля, IP сервера и кода порта (чаще 21). После сохранения остается последний шаг – внести директивы.
Бесплатная программа Filezilla (https://filezilla.ru/) для подключения robots.txt/.
Если нужно продвинуть свой сайт, Вы знаете, куда обращаться.