Найти тему

Как использовать robots.txt для правильной индексации сайта?

Оглавление

Текстовый файл robots.txt может стать источником больших проблем для владельца сайта вплоть до потери трафика на некоторые страницы или на весь ресурс.

В этой статье рассмотрим:

  • Что такое robots.txt?
  • Как его правильно настроить?
  • Какие есть сервисы для проверок robots.txt?
  • Почему не стоит запрещать пагинацию?

На сайте падает трафик? Возможно, запрещена индексация для поисковых систем. Причина в файле robots.txt. Если вовремя обнаружить проблему и настроить его работу правильно, индексация веб-страниц восстановится.

Что такое robots.txt?

Справка: robots.txt – это файл в корневом каталоге, который отвечает за то, чтобы сайт был открыт для индексации и сканирования страницы или ее элементов поисковыми системами.

Пример файла robots.txt

Прежде чем зайти на сайт, поисковая система обращается к файлу robots.txt и индексирует директивы – правила, которые запрещают индексацию страниц. Например, указан «User-agent» – обязательная директива, где указано для какого робота указаны правила. Если стоит "*" (звездочка), то это означает руководство для всех роботов. Можно создать персональные правила для ботов Яндекса (User-agent: Yandex) или Google (User-agent: Googlebot).

Файл передает один из трех вариантов разрешений:

  • Частичный допуск – сканирование отдельных элементов. Запрещает индексацию данных, которые нельзя допускать в выдачу – формы с личными данными пользователей, дублированные страницы, неуникальные изображения и др.
  • Полный доступ – разрешено сканировать все.
  • Полный запрет – нельзя сканировать ничего. Часто такое ограничение применяется при размещении нового сайта, чтобы он был закрыт для посещения, пока ведется его разработка, наполнение и проверка работы.

Часто разработчики, когда запускают новый сайт, забывают обновить этот файл и открыть сайт для индексации. И почему-то часто они это делают по пятницам, не предупреждая никого. Таким образом, страницы нового сайта автоматически будут закрыты на выходные, трафик и продажи упадут. Страницы могут вылетать из индекса – обычно до 2 недель. Но если это оперативно заметить, то после исправления robots.txt индексация восстановится и позиции могут вернуться обратно. Если до открытия индексации пройдет больше недели, могут быть более негативные последствия.

Файл robots.txt необходим, и его важно корректно настраивать. Например, вам не нужно, чтобы поисковая система просканировала какие-то дублированные изображения или нужно скрыть от посетителей раздел, предназначенный только для сотрудников. Главное предназначение в использовании для SEO - закрытие дублей. Например, есть технические дубли страниц сортировки, фильтрации, UTM-метки, которые генерирует система управления сайтом CMS, и от таких страниц в индексе необходимо избавиться, закрыть их от индексации.

-2

Как создать robots.txt и настроить его работу?

Это обычный текстовый файл, который создается в блокноте. Указывают User-agent с помощью значка «звездочка» и ниже прописывают правила.

Существует несколько способов, как создать robots.txt:

  • Посмотреть стандартные правила для CMS сайта. Обычно туда включены рекомендации, что именно нужно закрыть. Эту информацию можно найти в интернете, например, для Bitrix или WordPress. Это самый простой метод. С помощью специальных плагинов и модулей редактирование возможно даже с административной панели CMS.
  • Инструменты в Яндекс.Вебмастер и в Google Search Console позволят вам осуществить проверку ваших директив, чтобы избежать ошибок.
  • Если сайт новый, за исходник можно взять стандарт и потом проверить в инструментах через валидатор. Он сканирует robots.txt на содержание ошибок. В него можно добавить страницу сайта и посмотреть, какие элементы открыты, какие закрыты.

Справка: Файл robots.txt создается через блокнот и сохраняется в формате «.txt». Учитывайте ограничение по размеру до 32 кб на индексацию поисковой системой Яндекс.

Для формирования файла в CMS есть свои плагины. Классическим вариантом размещения является публикация через файловый менеджер или FTP-соединение с перезаписыванием файла. Обязательно проверьте результат: возможно кэширование результатов – в таком случае обновите кеш браузера. Если хочется внедрить изменения и узнать, как будет работать страница, закроется ли она от индексации, не запретили ли лишнего, используйте сервисы проверки от Яндекса.

Основные директивы

Инструкции для поисковых роботов указываются с помощью символов и текста. Важно разобраться, какие директивы за что отвечают. Есть стандартные формулировки правил. Несколько примеров директив:

  • Disallow – запрет сканирования. Ставится двоеточие и внутри знаков «/» пишется название раздела, который нельзя сканировать. Disallow: /admin/ – будет запрещена индексация содержимого указанного раздела.
  • Allow – разрешающая директива. По умолчанию все что не запрещено, разрешено.
  • «$» – указывает на конец строки, например Disallow: /poly/$, папку индексировать нельзя, а ее содержимое можно.
  • Sitemap – указывает путь к карте сайта для ускорения индексации.
C помощью специальных платных программ можно удобно изучать каждую страницу на предмет доступности для индексации:
C помощью специальных платных программ можно удобно изучать каждую страницу на предмет доступности для индексации:

Пример проверки в Яндекс Вебмастер

Почему не стоит запрещать пагинацию?

Справка: пагинация – это разделение контента на сайте на отдельные страницы. Часто применяется в каталогах интернет-магазинов.

Пример страниц пагинации
Пример страниц пагинации

Например, в одном из листингов представлены кольца - 1000 видов. Если разместить все в одном разделе, скорость загрузки такой страницы будет крайне низкой. Чтобы не выводить 1000 позиций в одном листинге, его разбивают на подстраницы для удобства клиентов и поисковых роботов.

Мы не рекомендуем закрывать пагинацию от поисковых роботов, чтобы ссылки на товары появлялись в выдаче и разделы сайта быстро индексировались. Поисковые системы должны просканировать все товары и узнать обо всем ассортименте.

Если правильно настраивать robots.txt и проверять его настройки, проблем с индексацией из-за этого файла не возникнет. Если обнаружены неполадки, рекомендуем обратиться к специалистам либо разобраться в вопросе самостоятельно.

Еще больше статей об интернет-маркетинге и увеличении онлайн-продаж здесь: https://www.trinet.ru/blog/.
Понравилась статья? Поставьте лайк 👍 , оставьте комментарий и подписывайтесь на наш канал.