Расскажу об одном из самых важных файлов для SEO оптимизации!
В robots.txt задаются параметры, которые служат для поисковых систем, своего рода определенным указаниям. К примеру вы можете закрыть определенные страницы от индексации.
Для правильной настройки данного файла используются директивы. К примеру директива User-agent, которая указывается в самом начале, является обязательной для Яндекса. Также, есть директивы, которые разрешают (Allow), либо запрещает (Disallow) индексирование страниц.
Список директив для файла robots.txt
Как я уже писал выше, для того, что бы дать определенным поисковым роботам указания используют директивы. У каждой поисковой системы, есть свои определенные рекомендации!
User-agent
Важнейшая директива! Она определяет параметры индексации для конкретных поисковых роботов, либо общие параметры.
User-agent: * // для всех ботов
User-agent: GoogleBot // для Google (регистр не важен)
User-agent: YandexBot // для Яндекса
и т.д.
Allow и Disallow
Allow разрешает индексацию разделов и страниц сайта, а Disallow запрещает индексировать разделы и страницы.
Дополнительные операторы:
* — любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
$ — показывает, что символ перед ним должен быть последним.
# — комментарий, все что после этого символа в строке роботом не учитывается.
Crawl-delay
Как правило, данную директиву используют в целях снижения нагрузки на сервер, так как данное правило устанавливает интервал для поисковых роботов между скачиванием страниц.
Clean-param
Устанавливает, что страницы с определенными параметрами не надо индексировать.
Пример:
Clean-param: box_id https://site.ru/shop/
https://site.ru/shop/?box_id=4532 // данная странице не индексируется
Sitemap
Указывает путь к карте сайта
Host
Данная директива, определяет главное зеркало сайта
Пример:
Host: https://site.ru
Закрываем весь сайт от индексации
При необходимости закрыть сайт от индексации необходимо в файле robots.txt указать следующие строки
User-agent: *
Disallow: /
Пример рабочего файла Robots.txt
User-agent: *
Disallow: /admin/
Disallow: /plugins/
Disallow: /box/
Disallow: /shop/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Crawl-Delay: 1
User-agent: GoogleBot
Disallow: /admin/
Disallow: /plugins/
Disallow: /box/
Disallow: /shop/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Allow: /plugins/.css
Allow: /plugins/.js
Allow: /plugins/.png
Allow: /plugins/.jpg
Allow: /plugins/*.gif
User-agent: Yandex
Disallow: /admin/
Disallow: /plugins/
Disallow: /box/
Disallow: /shop/
Disallow: */?s=
Disallow: *sort=
Disallow: view=
Allow: /plugins/.css
Allow: /plugins/.js
Allow: /plugins/.png
Allow: /plugins/.jpg
Allow: /plugins/.gif
Clean-Param: utm_source&utm_medium&utm_campaign
Crawl-Delay: 3
Sitemap: https://site.ru/sitemap.xml
Host: https://site.ru
Полезные ссылки
Проверить файл robots.txt на ошибки: