205 подписчиков

Зачем нужен robots txt – простым языком

28 апреля 202228 апр 2022

5 мин

Оглавление

Что запрещать и разрешать сканировать поисковикам
Почему не следует писать один блок директив для всех поисковиков сразу
Основные правила заполнения robots txt.

Файл robots txt для сайта и его правильная настройка является одной из базовых вещей для технической части SEO-продвижения. Цель у этого файла одна – управлять процессом сканирования сайта поисковыми системами (на основе «Стандарта исключений для роботов»). С его помощью не удастся полноценно управлять индексацией (и лучше не пытаться – приведет к ошибкам). Основные возможности файла – это рекомендации для поисковиков, какие страницы и URL следует сканировать, а какие не стоит. При этом важно заметить – «рекомендации», а не «команды». Поисковик может легко просканировать запрещенную страницу, если получить сигналы о ценности URLв системе сайта, или же наоборот, пропустит адрес, если на запрос получит данные о технической ошибке. Также через robots txt не получится заблокировать парсеры и ботов. AhrefsBot, BLEXBot, Slurp, SMTBot и другие – в robots.txt их блокировать бесполезно, можно и не пробовать.

Что запрещать и разрешать сканировать поисковикам

Существует ряд рекомендаций по поводу того, что следует позволять сканировать в robots txt, а что нет. Начнем с того, к чему у поисковиков должен быть обязательный доступ.

посадочные страницы;
файлы рендеринга страницы (файлы с графикой, шрифтами, js, css).

Отдельно следует обратить внимание на пункт 2 – в случае, если поисковик не «увидит» сайт в таком же виде, в котором его видит человек, то ресурс может быть просто пессимизирован. Платформа посчитает сайт неоптимизированным или вообще мусорным – а раз так, то повышаться в выдаче он не будет. Будет хорошо, если он вообще будет в ней отображаться.

Теперь о том, что не следует отдавать на сканирование поисковику:

системные файлы и папки на серверах;
дубли – сортировки, UTM-метки, различные фильтры и другие URL, содержащие в себе параметры;
адреса с пользовательскими сессиями, результатами поиска по сайту, динамические URL;
служебные URL;
административные части сайта.

Почему не следует писать один блок директив для всех поисковиков сразу

Как минимум потому, что они принадлежат разным компаниям и называются по-разному (да и в целом они могут обидеться за неуважение). Как максимум – разное восприятие прописанных директив и, следовательно, разные правила сканирования. Приведем лишь некоторые отличия.

Робот Яндекса не очень хорошо воспринимает метатеги robots, а также канонические адреса. То, что прописано в robots.txt, будет приоритетнее. В случае, если вы позволите боту сканировать то, что не должно попасть в выдачу – вероятнее всего это как раз туда попадет (вместо того, что должно туда попасть). Ситуации, когда поисковику чем-то не понравилась целевая страница и он выдает нецелевую, увы, не редкость.
Тот же Яндекс читает директивы, которые не видит Google – к примеру, Clean-param. С другой стороны, у Google тоже есть набор директив, которые отказывается принимать Яндекс.
В целом более умные алгоритмы Google приводят к разным тактикам работы с поисковыми роботами. Для бота от Google лучше ограничиться минимальным блокированием URL и позволить роботу лучше изучить сайт. Неадекватная активность в логах может сигнализировать о проблемах с сайтом. В случае Яндекса следует четко понимать, какие URL вы хотите видеть в выдаче и открывать только их. По сути, бота от Яндекса следует вести за руку и четко указывать ему, что нужно, а что нет. При этом активность робота от Яндекса в рунете значительно выше – это также следует учитывать.

Основные правила заполнения robots txt.

Заполнять файл директив следует по правилам – иначе неизбежны ошибки сканирования. Ошибки сканирования скорее всего повлекут за собой различные баги в обходе сайта, а затем и пессимизацию. Потому правила важны. Остановимся на основных:

Название файла может быть только «robots.txt» в нижнем регистре. Кодировка - UTF-8 без BOM, местонахождение – в корне сайта.
Файл не должен содержать в себе кириллицу. Даже если вы используете домен в РФ-зоне, используйте конвертацию таких URL-адресов в пуникод. Выглядеть это будет примерно вот так: http://xn--80aswg.xn--p1ai/sitemap.xml (речь о директиве sitemap).
Каждую новую директиву следует прописывать с новой строки.
Блоки директив для каждых User-Agent следует делить пустой строкой.
Каждая запрещающая или разрешающая директива должно относиться исключительно к одному боту, заранее указанному для заданного блока.
На порядок размещения директив можно не обращать внимание.

Как написать корректный robots.txt для своего сайта.

В первую очередь надо сказать, что самому его заполнять не обязательно. Достаточно взять шаблонный файл и использовать его. Многие так и поступают. Однако оптимальным этот вариант назвать нельзя.

Для того, чтобы составить для своего сайта корректный robots.txt, следует учитывать два момента:

Структуру сайта. Важно понимать, что вы хотите показать роботу, а что нет.
Взгляд робота. Необходимо выяснить, как робот видит ваш ресурс.

Первый момент выявляется при помощи семантического ядра и структуры сайта, основанной на этом ядре. Если вы проводили хотя бы одну разовую seo оптимизацию, то данная информация должна быть у вас на руках.

Второй момент решается при помощи парсера сайта, способного эмулировать поисковых роботов. С его помощью можно понять, как робот видит сайт с учетом всех прописанных директив, работает ли рендеринг страницы и т.д. Парсинг обычно осуществляется несколько раз – под каждого робота.

Все внесенные правки следует проверять при помощи инструментария поисковиков.

В Google – https://www.google.com/webmasters/tools/robots-testing-tool
В Яндексе – https://webmaster.yandex.ru/tools/robotstxt/

Принцип работы достаточно прост – через инструментарий вы сможете увидеть актуальную кэшированную версию файла, а также анализатор и инструмент проверки URL. Если он заблокирован – вы увидите строку, блокирующую его.

Подводя итоги

Вкратце напомним основные тезисы:

robots.txt не следует использовать для управление индексацией – он используется для настроек сканирования;
записанные директивы и их интерпретация зависят от поисковика – у каждой системы свои правила сканирования, а потому не забывайте тестировать и проверять файлы;
уделите внимание файлам графики и рендеринга (css, js, jpg, gif, svg и т.д.). Они обеспечат правильное отображение сайта для робота;
маленьким сайтам можно не настраивать robots.txt самостоятельно, а воспользоваться шаблонным вариантом.

Наше предложение

Также самостоятельно не настраивать robots.txt можно, воспользовавшись услугами нашей компании. Вы можете заказать seo оптимизацию, и мы предоставим полный спектр услуг, необходимых для подготовки вашего сайта к продвижению. Наша компания уже больше 10 лет работает в этой сфере, а потому наши специалисты обладают всеми необходимыми компетенциями. Обращайтесь и вместе мы поможем вашей компании сделать шаг вперед.