Файл robots.txt заполнение, проверка и важность для сайта

23 января 202123 янв 2021

3 мин

Оглавление

1. Проверяем директории для разных поисковых систем
2. Что закрываем от индексации
3. Открыть для индексации

Это текстовый файл, который указывает роботам поисковых систем какие страницы сайта добавлять в базу поисковых систем, а какие нет. Правильное заполнение файла обеспечивает сайту правильную индексацию сайта. Проверяем есть ли он на сайте по адресу ваш_домен/robots.txt.

И уже внутри файла robots с помощью директив мы прописываем указания для роботов поисковых систем:

Директива

User-agent *

Указывает на робота, для которого действуют перечисленные в robots.txt правила.

Disallow Запрещает индексирование разделов или отдельных страниц сайта.

Sitemap Указывает путь к файлу Sitemap, который размещен на сайте.

Clean-param Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.

Allow Разрешает индексирование разделов или отдельных страниц сайта.

Большинство систем управления сайтами добавляют дефолтные файлы, в которых прописывают самые необходимые настройки, но важно помнить, что файл robots для каждого сайта будет индивидуальный и его необходимо настроить именно для своего сайта.

1. Проверяем директории для разных поисковых систем

В России мы в ориентируемся на 2 основные поисковые системы это Яндекс и Google, поэтому в файл robots добавляем правила для роботов этих поисковых систем. Для поисковой системы Яндекс мы приписываем: User-agent: Yandex. Для поисковой системы Google мы прописываем: User-agent: Googlebot. И общие правила для всех остальных роботов: User-agent: *

2. Что закрываем от индексации

Дальше используя директории Disallow для каждого робота прописываем, какие разделы сайта закрыть от индексации.

Что рекомендую закрыть от индексации:

Административные разделы сайта (служебные страницы, это путь по которому у вас расположена административная часть сайта, для разных систем управления сайтами он будет разный)
Страницы с личной информацией пользователей
Корзину, оформление товара
Сравнение товаров
Документы PDF, DOC, XLS
Страницы с версиями для печати
Результаты поиска на сайте
Фид файлы
Страницы сортировки, фильтров (если они не используются для продвижения)
Не уникальные страницы
Дубликаты (страницы с одинаковым наполнением но разным адресом, календари, архивы, RSS)
Документы, которые не несут пользу для пользователя

Узнать какие страницы попадают под индексацию роботов поисковых систем можно через любой парсер.

Например: если вы хотите закрыть от индексации раздел сайта admin, то необходимо прописать следующую директорию:

Disallow: /admin

3. Открыть для индексации

Закрывая служебные страницы сайта, мы закрываем все внутренние разделы этих папок, а часто именно там лежат картинки, файлы css и JavaScript которые позволяют роботу получить больше данных о сайте и увидеть как сайт отображается в браузере, поэтому рекомендую открыть такие файлы для индексации.

Например: если мы хотим открыть для индексации файлы js, то необходимо прописать следующую директорию:

Allow: /admin/javascript/*.js

4. Спецсимволы

Сделать настройки файла robots более гибкими позволяют спецсимволы $, *, #

*- означает любую последовательность символов

Например:

Disallow: /*?sort=

То есть все URL на сайте, которые содержат ?sort= будут закрыты от индексации

$ — используется для отмены правила *

Например:

Disallow: /checkout/$

Будет значить, что раздел /checkout/ закрыт от индексации, но раздел /checkout/page будет доступна

# — комментарий, все что после этого символа в строке роботом не учитывается

5. Директория Sitemap

Обязательно в файле необходимо добавить путь к вашей карте сайта формате xml, для этого используем директорию Sitemap.

Пример:

Sitemap: https://ваш_сайт/sitemap.xml

После того как файл создан загружаем его в корень вашего сайта и проверяем правильность заполнения через панель Вебмастер Яндекс Инструменты — Анализ robots.txt

Также после загрузки нового файла парусим сайт, чтобы проверить все ли правила применены.

Заключение

И обратите внимание, что директория Host, которая раньше учитывалась роботом Яндекса и определяла главное зеркало сайта больше не работает. Когда вижу, что она прописана, думаю, что сайтом давно никто не занимался, так как с файлом robots работаем регулярно. Если вы начали изучать технические настройки сайта, то вам точно будет интересно почитать про настройку несуществующих страниц.

Больше информации на liasite.ru