Другие статьи по теме:
Как упоминалось выше, широко применяются два оператора: * и $. С их помощью можно:
1. Заблокировать определённые типы файлов.
User-agent: *
# Блокируем любые файлы с расширением .json
Disallow: /*.json$
В примере выше астериск * указывает на любые символы в названии файла, а оператор $ гарантирует, что расширение .json находится точно в конце адреса, и правило не затрагивает страницы вроде /locations.json.html (вдруг есть и такие).
2. Заблокировать URL с параметром ?, после которого следуют GET-запросы (метод передачи данных от клиента серверу).
Этот приём активно используется, если у проекта настроено ЧПУ для всех страниц и документы с GET-параметрами точно являются дублями.
User-agent: *
# Блокируем любые URL, содержащие символ ?
Disallow: /*?
Заблокировать результаты поиска, но не саму страницу поиска.
User-agent: *
# Блокируем страницу результатов поиска
Disallow: /search.php?query=*
Имеет ли значение регистр?
Определённо да. При указании правил Disallow / Allow, URL адреса могут быть относительными, но обязаны сохранять регистр.
User-agent: *
# /users разрешены для сканирования, поскольку регистр разный
Disallow: /Users
Но сами директивы могут объявляться как с заглавной, так и с прописной: Disallow: или disallow: — без разницы. Исключение — Sitemap: всегда указывается с заглавной.
Как проверить robots.txt?
Есть множество сервисов проверки корректности файлов robots.txt, но, пожалуй, самые надёжные: Google Search Console и Яндекс.Вебмастер.
Для мониторинга изменений, как всегда, незаменим «Модуль ведения проектов»:
- Контроль индексации на вкладке «Аудит» — динамика сканирования страниц сайта в Яндексе и Google.
- Контроль изменений в файле robots.txt. Теперь точно не упустите, если кто-то из коллег закрыл сайт от индексации (или наоборот).
Держите свои robots.txt в порядке, и пусть в индекс попадает только необходимое!
Другие статьи по теме: