Файл robots txt для сайта и его правильная настройка является одной из базовых вещей для технической части SEO-продвижения. Цель у этого файла одна – управлять процессом сканирования сайта поисковыми системами (на основе «Стандарта исключений для роботов»). С его помощью не удастся полноценно управлять индексацией (и лучше не пытаться – приведет к ошибкам). Основные возможности файла – это рекомендации для поисковиков, какие страницы и URL следует сканировать, а какие не стоит. При этом важно заметить – «рекомендации», а не «команды». Поисковик может легко просканировать запрещенную страницу, если получить сигналы о ценности URLв системе сайта, или же наоборот, пропустит адрес, если на запрос получит данные о технической ошибке. Также через robots txt не получится заблокировать парсеры и ботов. AhrefsBot, BLEXBot, Slurp, SMTBot и другие – в robots.txt их блокировать бесполезно, можно и не пробовать.
Что запрещать и разрешать сканировать поисковикам
Существует ряд рекомендаций по поводу того, что следует позволять сканировать в robots txt, а что нет. Начнем с того, к чему у поисковиков должен быть обязательный доступ.
- посадочные страницы;
- файлы рендеринга страницы (файлы с графикой, шрифтами, js, css).
Отдельно следует обратить внимание на пункт 2 – в случае, если поисковик не «увидит» сайт в таком же виде, в котором его видит человек, то ресурс может быть просто пессимизирован. Платформа посчитает сайт неоптимизированным или вообще мусорным – а раз так, то повышаться в выдаче он не будет. Будет хорошо, если он вообще будет в ней отображаться.
Теперь о том, что не следует отдавать на сканирование поисковику:
- системные файлы и папки на серверах;
- дубли – сортировки, UTM-метки, различные фильтры и другие URL, содержащие в себе параметры;
- адреса с пользовательскими сессиями, результатами поиска по сайту, динамические URL;
- служебные URL;
- административные части сайта.
Почему не следует писать один блок директив для всех поисковиков сразу
Как минимум потому, что они принадлежат разным компаниям и называются по-разному (да и в целом они могут обидеться за неуважение). Как максимум – разное восприятие прописанных директив и, следовательно, разные правила сканирования. Приведем лишь некоторые отличия.
- Робот Яндекса не очень хорошо воспринимает метатеги robots, а также канонические адреса. То, что прописано в robots.txt, будет приоритетнее. В случае, если вы позволите боту сканировать то, что не должно попасть в выдачу – вероятнее всего это как раз туда попадет (вместо того, что должно туда попасть). Ситуации, когда поисковику чем-то не понравилась целевая страница и он выдает нецелевую, увы, не редкость.
- Тот же Яндекс читает директивы, которые не видит Google – к примеру, Clean-param. С другой стороны, у Google тоже есть набор директив, которые отказывается принимать Яндекс.
- В целом более умные алгоритмы Google приводят к разным тактикам работы с поисковыми роботами. Для бота от Google лучше ограничиться минимальным блокированием URL и позволить роботу лучше изучить сайт. Неадекватная активность в логах может сигнализировать о проблемах с сайтом. В случае Яндекса следует четко понимать, какие URL вы хотите видеть в выдаче и открывать только их. По сути, бота от Яндекса следует вести за руку и четко указывать ему, что нужно, а что нет. При этом активность робота от Яндекса в рунете значительно выше – это также следует учитывать.
Основные правила заполнения robots txt.
Заполнять файл директив следует по правилам – иначе неизбежны ошибки сканирования. Ошибки сканирования скорее всего повлекут за собой различные баги в обходе сайта, а затем и пессимизацию. Потому правила важны. Остановимся на основных:
- Название файла может быть только «robots.txt» в нижнем регистре. Кодировка - UTF-8 без BOM, местонахождение – в корне сайта.
- Файл не должен содержать в себе кириллицу. Даже если вы используете домен в РФ-зоне, используйте конвертацию таких URL-адресов в пуникод. Выглядеть это будет примерно вот так: http://xn--80aswg.xn--p1ai/sitemap.xml (речь о директиве sitemap).
- Каждую новую директиву следует прописывать с новой строки.
- Блоки директив для каждых User-Agent следует делить пустой строкой.
- Каждая запрещающая или разрешающая директива должно относиться исключительно к одному боту, заранее указанному для заданного блока.
- На порядок размещения директив можно не обращать внимание.
Как написать корректный robots.txt для своего сайта.
В первую очередь надо сказать, что самому его заполнять не обязательно. Достаточно взять шаблонный файл и использовать его. Многие так и поступают. Однако оптимальным этот вариант назвать нельзя.
Для того, чтобы составить для своего сайта корректный robots.txt, следует учитывать два момента:
- Структуру сайта. Важно понимать, что вы хотите показать роботу, а что нет.
- Взгляд робота. Необходимо выяснить, как робот видит ваш ресурс.
Первый момент выявляется при помощи семантического ядра и структуры сайта, основанной на этом ядре. Если вы проводили хотя бы одну разовую seo оптимизацию, то данная информация должна быть у вас на руках.
Второй момент решается при помощи парсера сайта, способного эмулировать поисковых роботов. С его помощью можно понять, как робот видит сайт с учетом всех прописанных директив, работает ли рендеринг страницы и т.д. Парсинг обычно осуществляется несколько раз – под каждого робота.
Все внесенные правки следует проверять при помощи инструментария поисковиков.
- В Яндексе – https://webmaster.yandex.ru/tools/robotstxt/
Принцип работы достаточно прост – через инструментарий вы сможете увидеть актуальную кэшированную версию файла, а также анализатор и инструмент проверки URL. Если он заблокирован – вы увидите строку, блокирующую его.
Подводя итоги
Вкратце напомним основные тезисы:
- robots.txt не следует использовать для управление индексацией – он используется для настроек сканирования;
- записанные директивы и их интерпретация зависят от поисковика – у каждой системы свои правила сканирования, а потому не забывайте тестировать и проверять файлы;
- уделите внимание файлам графики и рендеринга (css, js, jpg, gif, svg и т.д.). Они обеспечат правильное отображение сайта для робота;
- маленьким сайтам можно не настраивать robots.txt самостоятельно, а воспользоваться шаблонным вариантом.
Наше предложение
Также самостоятельно не настраивать robots.txt можно, воспользовавшись услугами нашей компании. Вы можете заказать seo оптимизацию, и мы предоставим полный спектр услуг, необходимых для подготовки вашего сайта к продвижению. Наша компания уже больше 10 лет работает в этой сфере, а потому наши специалисты обладают всеми необходимыми компетенциями. Обращайтесь и вместе мы поможем вашей компании сделать шаг вперед.