Найти тему
SEOVLOB.ru

Все про файл Robots.txt для поисковых систем

Оглавление

Расскажу об одном из самых важных файлов для SEO оптимизации!

В robots.txt задаются параметры, которые служат для поисковых систем, своего рода определенным указаниям. К примеру вы можете закрыть определенные страницы от индексации.

Для правильной настройки данного файла используются директивы. К примеру директива User-agent, которая указывается в самом начале, является обязательной для Яндекса. Также, есть директивы, которые разрешают (Allow), либо запрещает (Disallow) индексирование страниц.

Список директив для файла robots.txt

Как я уже писал выше, для того, что бы дать определенным поисковым роботам указания используют директивы. У каждой поисковой системы, есть свои определенные рекомендации!

User-agent

Важнейшая директива! Она определяет параметры индексации для конкретных поисковых роботов, либо общие параметры.

User-agent: * // для всех ботов
User-agent: GoogleBot // для Google (регистр не важен)
User-agent: YandexBot // для Яндекса
и т.д.

Allow и Disallow

Allow разрешает индексацию разделов и страниц сайта, а Disallow запрещает индексировать разделы и страницы.

Дополнительные операторы:

* — любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
$ — показывает, что символ перед ним должен быть последним.
# — комментарий, все что после этого символа в строке роботом не учитывается.

Crawl-delay

Как правило, данную директиву используют в целях снижения нагрузки на сервер, так как данное правило устанавливает интервал для поисковых роботов между скачиванием страниц.

Clean-param

Устанавливает, что страницы с определенными параметрами не надо индексировать.

Пример:

Clean-param: box_id https://site.ru/shop/
https://site.ru/shop/?box_id=4532 // данная странице не индексируется

Sitemap

Указывает путь к карте сайта

Host

Данная директива, определяет главное зеркало сайта

Пример:

Host: https://site.ru

Закрываем весь сайт от индексации

При необходимости закрыть сайт от индексации необходимо в файле robots.txt указать следующие строки

User-agent: *
Disallow: /

Пример рабочего файла Robots.txt

User-agent: *
Disallow: /admin/
Disallow: /plugins/
Disallow: /box/
Disallow: /shop/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Crawl-Delay: 1

User-agent: GoogleBot
Disallow: /admin/
Disallow: /plugins/
Disallow: /box/
Disallow: /shop/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Allow: /plugins/.css
Allow: /plugins/.js
Allow: /plugins/.png
Allow: /plugins/.jpg
Allow: /plugins/*.gif

User-agent: Yandex
Disallow: /admin/
Disallow: /plugins/
Disallow: /box/
Disallow: /shop/
Disallow: */?s=
Disallow: *sort=
Disallow: view=
Allow: /plugins/.css
Allow: /plugins/.js
Allow: /plugins/.png
Allow: /plugins/.jpg
Allow: /plugins/.gif
Clean-Param: utm_source&utm_medium&utm_campaign
Crawl-Delay: 3

Sitemap: https://site.ru/sitemap.xml
Host: https://site.ru

Полезные ссылки

Рекомендации Яндекс

Рекомендации Google

Проверить файл robots.txt на ошибки:

Яндекс.Вебмастер

Google Search Console