Это текстовый файл, который указывает роботам поисковых систем какие страницы сайта добавлять в базу поисковых систем, а какие нет. Правильное заполнение файла обеспечивает сайту правильную индексацию сайта. Проверяем есть ли он на сайте по адресу ваш_домен/robots.txt.
И уже внутри файла robots с помощью директив мы прописываем указания для роботов поисковых систем:
Директива
User-agent *
Указывает на робота, для которого действуют перечисленные в robots.txt правила.
Disallow Запрещает индексирование разделов или отдельных страниц сайта.
Sitemap Указывает путь к файлу Sitemap, который размещен на сайте.
Clean-param Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.
Allow Разрешает индексирование разделов или отдельных страниц сайта.
Большинство систем управления сайтами добавляют дефолтные файлы, в которых прописывают самые необходимые настройки, но важно помнить, что файл robots для каждого сайта будет индивидуальный и его необходимо настроить именно для своего сайта.
1. Проверяем директории для разных поисковых систем
В России мы в ориентируемся на 2 основные поисковые системы это Яндекс и Google, поэтому в файл robots добавляем правила для роботов этих поисковых систем. Для поисковой системы Яндекс мы приписываем: User-agent: Yandex. Для поисковой системы Google мы прописываем: User-agent: Googlebot. И общие правила для всех остальных роботов: User-agent: *
2. Что закрываем от индексации
Дальше используя директории Disallow для каждого робота прописываем, какие разделы сайта закрыть от индексации.
Что рекомендую закрыть от индексации:
- Административные разделы сайта (служебные страницы, это путь по которому у вас расположена административная часть сайта, для разных систем управления сайтами он будет разный)
- Страницы с личной информацией пользователей
- Корзину, оформление товара
- Сравнение товаров
- Документы PDF, DOC, XLS
- Страницы с версиями для печати
- Результаты поиска на сайте
- Фид файлы
- Страницы сортировки, фильтров (если они не используются для продвижения)
- Не уникальные страницы
- Дубликаты (страницы с одинаковым наполнением но разным адресом, календари, архивы, RSS)
- Документы, которые не несут пользу для пользователя
Узнать какие страницы попадают под индексацию роботов поисковых систем можно через любой парсер.
Например: если вы хотите закрыть от индексации раздел сайта admin, то необходимо прописать следующую директорию:
Disallow: /admin
3. Открыть для индексации
Закрывая служебные страницы сайта, мы закрываем все внутренние разделы этих папок, а часто именно там лежат картинки, файлы css и JavaScript которые позволяют роботу получить больше данных о сайте и увидеть как сайт отображается в браузере, поэтому рекомендую открыть такие файлы для индексации.
Например: если мы хотим открыть для индексации файлы js, то необходимо прописать следующую директорию:
Allow: /admin/javascript/*.js
4. Спецсимволы
Сделать настройки файла robots более гибкими позволяют спецсимволы $, *, #
*- означает любую последовательность символов
Например:
Disallow: /*?sort=
То есть все URL на сайте, которые содержат ?sort= будут закрыты от индексации
$ — используется для отмены правила *
Например:
Disallow: /checkout/$
Будет значить, что раздел /checkout/ закрыт от индексации, но раздел /checkout/page будет доступна
# — комментарий, все что после этого символа в строке роботом не учитывается
5. Директория Sitemap
Обязательно в файле необходимо добавить путь к вашей карте сайта формате xml, для этого используем директорию Sitemap.
Пример:
Sitemap: https://ваш_сайт/sitemap.xml
После того как файл создан загружаем его в корень вашего сайта и проверяем правильность заполнения через панель Вебмастер Яндекс Инструменты — Анализ robots.txt
Также после загрузки нового файла парусим сайт, чтобы проверить все ли правила применены.
Заключение
И обратите внимание, что директория Host, которая раньше учитывалась роботом Яндекса и определяла главное зеркало сайта больше не работает. Когда вижу, что она прописана, думаю, что сайтом давно никто не занимался, так как с файлом robots работаем регулярно. Если вы начали изучать технические настройки сайта, то вам точно будет интересно почитать про настройку несуществующих страниц.
Больше информации на liasite.ru