Являясь обычным текстовым документом расположенным в папке сайта, файл робота как его обычно называют пользователи, вместе с динамической xml картой является одним из самых важных для поисковых систем. Через robots.txt поисковики получают информацию какие страницы необходимо индексировать, а какие пропустить. Одна ошибка в файле робота может полностью закрыть сайт от Яндекса и Google, или дать общий доступ к разделам с конфиденциальной информацией. При подготовке SEO-аудита оптимизаторы в первую очередь анализируют файл robots.
Если углубиться в историю, то в далеком 1994 году на W3C консорциуме было принято общее решение о добровольном использовании данного стандарта исключений для поисковых роботов, которых в данный момент насчитывается более трехсот. С того момента все основные системы при обращении к сайту смотрят на файл робота, используя его как путеводитель по разделам и страницам.
Для каких сайтов и зачем нужен файл robots.txt
При разработке сайта файл робота добавляется всегда и владельцу ресурса, как минимум нужно проверить, чтобы все url были открыты для индексации. Кроме этого, настройка файла robots является часть поисковой оптимизации сайта. Обратить внимание на директивы файла и закрыть некоторые разделы необходимо когда:
- Имеются технические страницы, отдельные url с формами связи, регистрации и другие модули для отправки информации. Данные страницы не имеет ценности для продвижения и самое правильное, это закрыть их от индексации;
- Выводятся результаты поиска на отдельной странице. Также как с формами, временные страницы с результатами поиска лучше исключить из выдачи;
- В разделах присутствуют страницы или блоки с личной информацией. Как правило, это касается баз данных покупателей, хранящихся в структуре сайта. Помните, не имеет значения, выведен раздел на сайте. Информация все равно может быть проиндексирована если не закрыть её соответствующей директивой;
- У сайта имеется зеркало или временный адрес с ранней версией разработки. Наличие зеркал явление исключительно отрицательное и если вдруг у веб-сайта они имеются, то нужно закрыть их все от индексации, в противном случае сайт может попасть под фильтр аффилирования.
Как создать и править robots.txt
Ряд систем управления создают файл робота автоматически. Внести корректировку обычно в файле можно через административную панель. В остальных случаях достаточно создать стандартный текстовый файл в программе блокнот (доступной на любом ПК на базе Windows) и прямо в нем прописать необходимые команды для поисковика. Альтернативным вариантом является использование многочисленных онлайн-сервисов, позволяющих создать, заполнять и скачивать в нужном формате файлы роботса. Заполненный robots.txt заливаем в корневую директорию вашего сайта. Если все сделано правильно, то по адресу вашсайт.ру/robots.txt должно появиться тоже само описание, что вы вводили в блокноте.
Редактирование документа можно сделать двумя способами: создать таким же образом новый файл на компьютере и просто заменить содержимое в корне сайта, или открыть файловую панель хостинга, найти там в корне (или поиском) robots.txt и исправить его в режиме онлайн.
Как настроить robots.txt ?
Работа с файлом робота является одновременно и простой, и сложной. Внесение корректировок происходит быстро, но в случае ошибки последствия могут быть критическими. Чтобы разобраться как правильно настроить роботс, давайте рассмотрим его синтаксис и правила.
Директивы
Все роботсы, если мы говорим о его стандартной версии, имеют директивы User-agent, отвечающие за указание настроек определенной поисковой системе. Возможен вариант как общих директив, так и конкретного прописания правил под Яндекс и Google.
Примеры User-agent'ов:User-agent: * - общие правила для всех ПСUser-agent: Yandex – директивы для всей ПС ЯндексUser-agent: YandexBot – директива для бота ЯндексаUser-agent: Googlebot– общие правила для всех ботов Google
Директива «Disallow» отвечает за закрытие информации на сайте. Применяется директива как ко всему ресурсу в целом (для этого достаточно добавить строчку disallow: /), так и к конкретным разделам. Как правило, все временные адреса и технические домены сразу закрываются от индексации. После переноса информации на «боевой» домен, копируется также файл робота и если не убрать директиву «disallow: /», то домен так останется скрытым от поисковых систем.
Директива «Allow» показывает боту какую страницу или раздел ему необходимо проиндексировать. Такая команда необходима тогда, когда есть исключения из общего правила. Например, мы закрыли от индексации целую папку фото, но непосредственно файл «карта проезда» находящийся в этой папке, указали поисковику для индексирования. В таком случае нам и понадобится использование команды «Allow». Помните, при добавлении нескольких правил бот считывает информацию сверху вниз, а значит последняя команда будет приоритетной.
Директива «Host» помогает поисковой системе проиндексировать основное зеркало сайта. Это бывает необходимо, когда сайт переезжает на https протокол. Директива поможет ему не запутаться и быстрее проиндексировать все страницы с новым протоколом.
Директива «Sitemap» отправляет роботу самую свежую динамическую карту сайта. Это бывает полезно, когда веб-сайт имеет несколько карт. Чтобы не тратить время бота на анализ устаревшей карты, ему сразу подсказывают расположение актуальной.
Символы
К каждой директиве применимы 4 основных вида символов - «/», «*», «$», «#»:
«/» - обратным слешем обозначается что именно скрывается от поисковой системы директивой disallow, так же «/»используется для уточнения раздела по такому же принципу, как в доменном имени. Если оставить «/» без указания раздела, то правило будет применимо ко всему сайту;
«*» - звезда показывает последовательность символов в документе и используется после каждого правила;
«$» - использование значка доллара ограничивает значение звезды, что актуально для одинаковых названий папок и файлов;
«#» - значок решетки сейчас используется редко, так как поисковые системы не обращают на него внимание. Раньше через «#» вебмастеры оставляли комментарии для коллег.
Заключение
Несмотря на то, что неправильное заполнение файла может сильно навредить поисковому продвижению, редактировать и проверять robots.txt нужно обязательно. Перед внесением правок в документ, их всегда можно проверить в панели вебмастеров. Если все прописано верно, сервис скажет об этом, точно так же, как и подсветит ошибки в случае их обнаружения. Кроме этого, для разных CMS есть готовые настройки для роботс, которые как минимум не навредят сайту и не будут препятствовать индексации страниц.