Найти в Дзене

Продвинутое использование robots.txt без ошибок: Disallow & allow

Оглавление

Другие статьи по теме:

Disallow

Директива, которая позволяет блокировать от индексации полностью весь сайт или определённые разделы.

Может быть полезно для закрытия от сканирования служебных, динамических или временных страниц (символ # отвечает за комментарии в коде и игнорируется краулерами).

User-agent: *

# Закрываем раздел /cms и все файлы внутри

Disallow: /cms

# Закрываем папку /images/resized/ (сами изображения разрешены к сканированию)

Disallow: /api/resized/

Упростить инструкции помогают операторы:

  • * — любая последовательность символов в URL. По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *.
  • $ — символ в конце URL-адреса, он используется чтобы отменить использование * на конце правила.
User-agent: *

# Закрываем URL, начинающиеся с /photo после домена. Например:
# /photos
# /photo/overview

Disallow: /photo

# Закрываем все URL, начинающиеся с /blog/ после домена и заканчивающиеся /stats/

Disallow: /blog/*/stats$

Важно: в robots.txt не нужно закрывать JS и CSS-файлы, они понадобятся поисковым роботом для правильного отображения (рендеринга) контента.

Allow

С помощью этой директивы можно, напротив, разрешить каталог или конкретный адрес к индексации. В некоторых случаях проще запретить к сканированию весь сайт и с помощью Allow открыть нужные разделы.

User-agent: *

# Блокируем весь раздел /admin

Disallow: /admin

# Кроме файла /admin/css/style.css

Allow: /admin/css/style.css

# Открываем все файлы в папке /admin/js. Например:
# /admin/js/global.js
# /admin/js/ajax/update.js

Allow: /admin/js/

Также Allow можно использовать для отдельных User-Agent.

# Запрещаем доступ к сайту всем роботам

User-agent: *
Disallow: /

# Кроме краулера Яндекса

User-agent: Yandex
Allow: /

Другие статьи по теме: