Текстовый файл robots.txt может стать источником больших проблем для владельца сайта вплоть до потери трафика на некоторые страницы или на весь ресурс.
В этой статье рассмотрим:
- Что такое robots.txt?
- Как его правильно настроить?
- Какие есть сервисы для проверок robots.txt?
- Почему не стоит запрещать пагинацию?
На сайте падает трафик? Возможно, запрещена индексация для поисковых систем. Причина в файле robots.txt. Если вовремя обнаружить проблему и настроить его работу правильно, индексация веб-страниц восстановится.
Что такое robots.txt?
Справка: robots.txt – это файл в корневом каталоге, который отвечает за то, чтобы сайт был открыт для индексации и сканирования страницы или ее элементов поисковыми системами.
Пример файла robots.txt
Прежде чем зайти на сайт, поисковая система обращается к файлу robots.txt и индексирует директивы – правила, которые запрещают индексацию страниц. Например, указан «User-agent» – обязательная директива, где указано для какого робота указаны правила. Если стоит "*" (звездочка), то это означает руководство для всех роботов. Можно создать персональные правила для ботов Яндекса (User-agent: Yandex) или Google (User-agent: Googlebot).
Файл передает один из трех вариантов разрешений:
- Частичный допуск – сканирование отдельных элементов. Запрещает индексацию данных, которые нельзя допускать в выдачу – формы с личными данными пользователей, дублированные страницы, неуникальные изображения и др.
- Полный доступ – разрешено сканировать все.
- Полный запрет – нельзя сканировать ничего. Часто такое ограничение применяется при размещении нового сайта, чтобы он был закрыт для посещения, пока ведется его разработка, наполнение и проверка работы.
Часто разработчики, когда запускают новый сайт, забывают обновить этот файл и открыть сайт для индексации. И почему-то часто они это делают по пятницам, не предупреждая никого. Таким образом, страницы нового сайта автоматически будут закрыты на выходные, трафик и продажи упадут. Страницы могут вылетать из индекса – обычно до 2 недель. Но если это оперативно заметить, то после исправления robots.txt индексация восстановится и позиции могут вернуться обратно. Если до открытия индексации пройдет больше недели, могут быть более негативные последствия.
Файл robots.txt необходим, и его важно корректно настраивать. Например, вам не нужно, чтобы поисковая система просканировала какие-то дублированные изображения или нужно скрыть от посетителей раздел, предназначенный только для сотрудников. Главное предназначение в использовании для SEO - закрытие дублей. Например, есть технические дубли страниц сортировки, фильтрации, UTM-метки, которые генерирует система управления сайтом CMS, и от таких страниц в индексе необходимо избавиться, закрыть их от индексации.
Как создать robots.txt и настроить его работу?
Это обычный текстовый файл, который создается в блокноте. Указывают User-agent с помощью значка «звездочка» и ниже прописывают правила.
Существует несколько способов, как создать robots.txt:
- Посмотреть стандартные правила для CMS сайта. Обычно туда включены рекомендации, что именно нужно закрыть. Эту информацию можно найти в интернете, например, для Bitrix или WordPress. Это самый простой метод. С помощью специальных плагинов и модулей редактирование возможно даже с административной панели CMS.
- Инструменты в Яндекс.Вебмастер и в Google Search Console позволят вам осуществить проверку ваших директив, чтобы избежать ошибок.
- Если сайт новый, за исходник можно взять стандарт и потом проверить в инструментах через валидатор. Он сканирует robots.txt на содержание ошибок. В него можно добавить страницу сайта и посмотреть, какие элементы открыты, какие закрыты.
Справка: Файл robots.txt создается через блокнот и сохраняется в формате «.txt». Учитывайте ограничение по размеру до 32 кб на индексацию поисковой системой Яндекс.
Для формирования файла в CMS есть свои плагины. Классическим вариантом размещения является публикация через файловый менеджер или FTP-соединение с перезаписыванием файла. Обязательно проверьте результат: возможно кэширование результатов – в таком случае обновите кеш браузера. Если хочется внедрить изменения и узнать, как будет работать страница, закроется ли она от индексации, не запретили ли лишнего, используйте сервисы проверки от Яндекса.
Основные директивы
Инструкции для поисковых роботов указываются с помощью символов и текста. Важно разобраться, какие директивы за что отвечают. Есть стандартные формулировки правил. Несколько примеров директив:
- Disallow – запрет сканирования. Ставится двоеточие и внутри знаков «/» пишется название раздела, который нельзя сканировать. Disallow: /admin/ – будет запрещена индексация содержимого указанного раздела.
- Allow – разрешающая директива. По умолчанию все что не запрещено, разрешено.
- «$» – указывает на конец строки, например Disallow: /poly/$, папку индексировать нельзя, а ее содержимое можно.
- Sitemap – указывает путь к карте сайта для ускорения индексации.
Пример проверки в Яндекс Вебмастер
Почему не стоит запрещать пагинацию?
Справка: пагинация – это разделение контента на сайте на отдельные страницы. Часто применяется в каталогах интернет-магазинов.
Например, в одном из листингов представлены кольца - 1000 видов. Если разместить все в одном разделе, скорость загрузки такой страницы будет крайне низкой. Чтобы не выводить 1000 позиций в одном листинге, его разбивают на подстраницы для удобства клиентов и поисковых роботов.
Мы не рекомендуем закрывать пагинацию от поисковых роботов, чтобы ссылки на товары появлялись в выдаче и разделы сайта быстро индексировались. Поисковые системы должны просканировать все товары и узнать обо всем ассортименте.
Если правильно настраивать robots.txt и проверять его настройки, проблем с индексацией из-за этого файла не возникнет. Если обнаружены неполадки, рекомендуем обратиться к специалистам либо разобраться в вопросе самостоятельно.
Еще больше статей об интернет-маркетинге и увеличении онлайн-продаж здесь: https://www.trinet.ru/blog/.
Понравилась статья? Поставьте лайк 👍 , оставьте комментарий и подписывайтесь на наш канал.