252 подписчика

Как использовать robots.txt для правильной индексации сайта?

22 декабря 202122 дек 2021

5 мин

Текстовый файл robots.txt может стать источником больших проблем для владельца сайта вплоть до потери трафика на некоторые страницы или на весь ресурс. В этой статье рассмотрим: На сайте падает трафик? Возможно, запрещена индексация для поисковых систем. Причина в файле robots.txt. Если вовремя обнаружить проблему и настроить его работу правильно, индексация веб-страниц восстановится. Что такое robots.txt? Справка: robots.txt – это файл в корневом каталоге, который отвечает за то, чтобы сайт был открыт для индексации и сканирования страницы или ее элементов поисковыми системами. Пример файла robots.txt Прежде чем зайти на сайт, поисковая система обращается к файлу robots.txt и индексирует директивы – правила, которые запрещают индексацию страниц. Например, указан «User-agent» – обязательная директива, где указано для какого робота указаны правила. Если стоит "*" (звездочка), то это означает руководство для всех роботов. Можно создать персональные правила для ботов Яндекса (User-agent:

Оглавление

Что такое robots.txt?
Как создать robots.txt и настроить его работу?
Основные директивы

Текстовый файл robots.txt может стать источником больших проблем для владельца сайта вплоть до потери трафика на некоторые страницы или на весь ресурс.

В этой статье рассмотрим:

Что такое robots.txt?
Как его правильно настроить?
Какие есть сервисы для проверок robots.txt?
Почему не стоит запрещать пагинацию?

На сайте падает трафик? Возможно, запрещена индексация для поисковых систем. Причина в файле robots.txt. Если вовремя обнаружить проблему и настроить его работу правильно, индексация веб-страниц восстановится.

Что такое robots.txt?

Справка: robots.txt – это файл в корневом каталоге, который отвечает за то, чтобы сайт был открыт для индексации и сканирования страницы или ее элементов поисковыми системами.

Пример файла robots.txt

Прежде чем зайти на сайт, поисковая система обращается к файлу robots.txt и индексирует директивы – правила, которые запрещают индексацию страниц. Например, указан «User-agent» – обязательная директива, где указано для какого робота указаны правила. Если стоит "*" (звездочка), то это означает руководство для всех роботов. Можно создать персональные правила для ботов Яндекса (User-agent: Yandex) или Google (User-agent: Googlebot).

Файл передает один из трех вариантов разрешений:

Частичный допуск – сканирование отдельных элементов. Запрещает индексацию данных, которые нельзя допускать в выдачу – формы с личными данными пользователей, дублированные страницы, неуникальные изображения и др.
Полный доступ – разрешено сканировать все.
Полный запрет – нельзя сканировать ничего. Часто такое ограничение применяется при размещении нового сайта, чтобы он был закрыт для посещения, пока ведется его разработка, наполнение и проверка работы.

Часто разработчики, когда запускают новый сайт, забывают обновить этот файл и открыть сайт для индексации. И почему-то часто они это делают по пятницам, не предупреждая никого. Таким образом, страницы нового сайта автоматически будут закрыты на выходные, трафик и продажи упадут. Страницы могут вылетать из индекса – обычно до 2 недель. Но если это оперативно заметить, то после исправления robots.txt индексация восстановится и позиции могут вернуться обратно. Если до открытия индексации пройдет больше недели, могут быть более негативные последствия.

Файл robots.txt необходим, и его важно корректно настраивать. Например, вам не нужно, чтобы поисковая система просканировала какие-то дублированные изображения или нужно скрыть от посетителей раздел, предназначенный только для сотрудников. Главное предназначение в использовании для SEO - закрытие дублей. Например, есть технические дубли страниц сортировки, фильтрации, UTM-метки, которые генерирует система управления сайтом CMS, и от таких страниц в индексе необходимо избавиться, закрыть их от индексации.

Как создать robots.txt и настроить его работу?

Это обычный текстовый файл, который создается в блокноте. Указывают User-agent с помощью значка «звездочка» и ниже прописывают правила.

Существует несколько способов, как создать robots.txt:

Посмотреть стандартные правила для CMS сайта. Обычно туда включены рекомендации, что именно нужно закрыть. Эту информацию можно найти в интернете, например, для Bitrix или WordPress. Это самый простой метод. С помощью специальных плагинов и модулей редактирование возможно даже с административной панели CMS.
Инструменты в Яндекс.Вебмастер и в Google Search Console позволят вам осуществить проверку ваших директив, чтобы избежать ошибок.
Если сайт новый, за исходник можно взять стандарт и потом проверить в инструментах через валидатор. Он сканирует robots.txt на содержание ошибок. В него можно добавить страницу сайта и посмотреть, какие элементы открыты, какие закрыты.

Справка: Файл robots.txt создается через блокнот и сохраняется в формате «.txt». Учитывайте ограничение по размеру до 32 кб на индексацию поисковой системой Яндекс.

Для формирования файла в CMS есть свои плагины. Классическим вариантом размещения является публикация через файловый менеджер или FTP-соединение с перезаписыванием файла. Обязательно проверьте результат: возможно кэширование результатов – в таком случае обновите кеш браузера. Если хочется внедрить изменения и узнать, как будет работать страница, закроется ли она от индексации, не запретили ли лишнего, используйте сервисы проверки от Яндекса.

Основные директивы

Инструкции для поисковых роботов указываются с помощью символов и текста. Важно разобраться, какие директивы за что отвечают. Есть стандартные формулировки правил. Несколько примеров директив:

Disallow – запрет сканирования. Ставится двоеточие и внутри знаков «/» пишется название раздела, который нельзя сканировать. Disallow: /admin/ – будет запрещена индексация содержимого указанного раздела.
Allow – разрешающая директива. По умолчанию все что не запрещено, разрешено.
«$» – указывает на конец строки, например Disallow: /poly/$, папку индексировать нельзя, а ее содержимое можно.
Sitemap – указывает путь к карте сайта для ускорения индексации.

C помощью специальных платных программ можно удобно изучать каждую страницу на предмет доступности для индексации:

Пример проверки в Яндекс Вебмастер

Почему не стоит запрещать пагинацию?

Справка: пагинация – это разделение контента на сайте на отдельные страницы. Часто применяется в каталогах интернет-магазинов.

Например, в одном из листингов представлены кольца - 1000 видов. Если разместить все в одном разделе, скорость загрузки такой страницы будет крайне низкой. Чтобы не выводить 1000 позиций в одном листинге, его разбивают на подстраницы для удобства клиентов и поисковых роботов.

Мы не рекомендуем закрывать пагинацию от поисковых роботов, чтобы ссылки на товары появлялись в выдаче и разделы сайта быстро индексировались. Поисковые системы должны просканировать все товары и узнать обо всем ассортименте.

Если правильно настраивать robots.txt и проверять его настройки, проблем с индексацией из-за этого файла не возникнет. Если обнаружены неполадки, рекомендуем обратиться к специалистам либо разобраться в вопросе самостоятельно.

Еще больше статей об интернет-маркетинге и увеличении онлайн-продаж здесь: https://www.trinet.ru/blog/.
Понравилась статья? Поставьте лайк 👍 , оставьте комментарий и подписывайтесь на наш канал.

Гаджеты и электроника

5,73 млн интересуются