Найти в Дзене
В Форме

Настраиваем правильный robots.txt

Оглавление

Подготовили для вас полную и максимально подробную инструкцию по настройке robots.txt. Рекомендуем и для новичков, и для маститых сеошников. Полезные вещи найдете 100%!

Итак, robots.txt – это текстовый файл, содержащий инструкции для поисковых роботов. Другими словами, он помогает попасть в поиск нужным страницам и не дает проиндексировать нежелательный контент.

Если у сайта нет файла robots.txt, боты считают, что ресурс полностью открыт и добавляют все страницы. А это нежелательно, так как на любом web сайте есть контент не для общего пользования — технические разделы, администраторские панели, учетные данные пользователей и т.п.

Как запретить индексацию сайта в robots.txt

Сразу уточним, что закрытый файл роботс — не гарантирует, что ни одна страница сайта не попадет в индекс. Поисковые системы могут проигнорировать запрет на индексацию. Самым надежным способом защитить сайт от попадания в открытый доступ является использование метатега robots вида <meta name="robots" content="noindex, nofollow"/> . Это выражение размещается в коде страницы между тегами <head> </head>

Тем не менее, если вы все же решили закрыть сайт от индексации с помощью файла роботс, то разместите в корне сайта файл robots.txt с таким содержанием:

User-agent: *
Disallow: /



Если надо запретить индексацию в Яндекс, файл будет выглядеть так:

User-agent: Yandex
Disallow: /



Запрет индексации сайта для Гугл:

User-agent: Googlebot
Disallow: /

Настройка robots.txt

Настройка заключается в создании, наполнении и размещении файла.

Откройте любой текстовый редактор: блокнот, notepad и т.п. Создайте пустой файл с именем robots.txt.

Теперь следует разобраться с основными директивами — текстовыми конструкциями, которые задают правила для поисковых роботов.

Директивы robots.txt

1. User-agent — указывает поискового робота. Мы настоятельно рекомендуем разделять файл robots.txt для основных ботов — Яндекса, Гугл и остальных.

Примеры использования директивы User-agent:

User-agent: Yandex # будет использована всеми роботами Яндекса

User-agent: Googlebot # будет использована всеми роботами Гугл

User-agent: * # будет использована всеми роботами


Алгоритм работы директивы следующий: робот ищет все выражения User-agent. Последовательность их расположения не важна. Если бот находит директиву, где он прямо указан, все остальные User-agent будут проигнорированы. Если инструкции конкретному роботу нет, используется директива User-agent: * .

Важный момент: перед каждой директивой User-agent следует вставлять пустой перевод строки. Символ # используется для комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.

2. Disallow и Allow — используются, соответственно, для запрета и разрешения индексации отдельных разделов и страниц сайта.

С помощью Disallow можно закрыть страницы с конфиденциальными данными (корзина, личный кабинет и т.п.), дубли страниц (страницы сортировки и т.п.), административный раздел и другие документы.

Примеры использования Disallow:

User-agent: Googlebot
Disallow: / # запрещена индексация всего сайта для робота Гугл

User-agent: Yandex
Disallow: /data # роботу Яндекс запрещена индексация страниц, адрес которых начинается с /data

User-agent: *
Disallow: /page? # всем роботам запрещена индексация страниц, содержащих параметр page?


Принцип действия Allow прямо противоположен Disallow. Эта директива разрешает индексацию разделов и страниц сайта.

Примеры использования Allow:

User-agent: *
Allow: /news
Disallow: /
# всем роботам запрещена индексация всех страниц сайта,
# за исключением начинающихся с /news


В правилах robots.txt используются спецсимволы * и $.

* - любая последовательность символов. По умолчанию считается, что к любой записи в robots.txt в конце приписан знак *. Символ $ отменяет *, который, как подразумевается, расположен в конце строки.

Например:

User-agent: *
Disallow: /rules$ # запрещает /rules,
# но не запрещает /rules.php

User-agent: Yandex
Disallow: /rules # запрещает и /rules,
# и /rules.php


При совместном использовании директив Disallow и Allow не имеет значения порядок их нахождения в файле. Робот сам сортирует строки по длине префикса и применяет правила последовательно.

Важно: при конфликте директив Disallow и Allow приоритет отдается Allow

Пустые переносы строки между User-agent, Disallow и Allow не допускаются!

3. Директива Sitemap. При наличии карты сайта в формате xml, можно указать путь с помощью директивы Sitemap. Если используется несколько файлов (например карта для документов и карта для изображений), указывать следует все.

Например:

User-agent: Googlebot
Disallow:
Sitemap: https://site.ru/sitemap.xml
Sitemap: https://site.ru/sitemap-image.xml


Важно: указывать директиву Sitemap можно в любом месте файла robots.txt, вне зависимости от секции User-agent.

4. Директива Crawl-delay. Поддерживается Яндексом, Mail.Ru, Bing, Yahoo. Гугл от нее отказался.

Crawl-delay искусственно замедляет робота, если сервер не успевает обрабатывать запросы. Яндекс рекомендует, прежде чем устанавливать тайм-аут для бота, проверить, не замедляют ли обход сайта служебные страницы, дубли и прочий мусор и запретить их обход с помощью Disallow.

Значения Crawl-delay могут быть дробными, например, 0,6 или 1,2. Значение директивы означает тайм-аут между запросами в секундах. Для Яндекса максимально допустимое значение Crawl-delay - 2.0.

Примеры:

User-agent: Yandex
Crawl-delay: 2.0 # задает тайм-аут в 2 секунды

User-agent: *
Crawl-delay: 0.5 # задает тайм-аут в 0.5 секунды


5. Директива
Clean-param.

Важно: Директива, которая используется только в Яндекс!

Применяется для исключения загрузки дублей страниц с GET-параметрами, например: id сессий, utm-меток.

Например, на сайте есть страницы:

www.site.ru/news/igra

www.site.ru/news/igra?utm_source=yandex

www.site.ru/news/igra?utm_source=google

www.site.ru/news/igra?utm_source=cpc

Директива Clean-param запретит индексацию страниц с utm метками, и в индекс попадет только www.site.ru/news/igra:

User-agent: Yandex
Disallow:
Clean-param: utm_source


6. Директива Host — неактуальная, использовалась в Яндекс для идентификации главного зеркала при склейке сайтов. Сейчас механизм склейки реализован через 301 редирект, поэтому директиву H

Где разместить robots.txt

Файл robots.txt размещается в корне сайта, основном каталоге. Для тех, кто делает первые шаги в строительстве сайтов, ориентиром может послужить файл .htaccess или index.html

Вот пример размещения файла robots.txt:

Пример размещения robots.txt
Пример размещения robots.txt

Таким образом, в результате файл должен быть доступен по адресу site.ru/robots.txt

Индексация robots.txt

Файл robots.txt должен быть доступным для индексации поисковыми системами. Для этого он должен удовлетворять следующим условиям:

— размер файла не больше 32 КБ;

— при обращении к файлу сервер отдает ответ 200. Проверить ответ сервера можно в одноименном инструменте Панели вебмастера Яндекс:

Проверка ответа сервера в панели вебмастера Яндекса
Проверка ответа сервера в панели вебмастера Яндекса

Примеры robots.txt

Надо понимать, что robots.txt решает задачи каждого отдельного сайта и потому индивидуален. Тем не менее, есть общие разделы, страницы, которые желательно запрещать для каждого движка сайта, cms

Robots.txt для wordpress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Googlebot
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Sitemap: https://site.ru/sitemap.xml

Robots.txt для битрикс

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
User-agent: Yandex
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
User-agent: Googlebot
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Sitemap: https://site.ru/sitemap.xml

Проверка robots.txt

После создания файла robots.txt его надо проверить на ошибки. Для этого рекомендуем инструмент панели вебмастера Яндекс:

Проверка robots.txt в Панели вебмастера Яндекс
Проверка robots.txt в Панели вебмастера Яндекс

Этот инструмент интересен тем, что можно проверить как существующий файл, размещенный на сервере, так и измененный, добавив его вручную.

Вывод:

Создав robots.txt, вы получите рабочий инструмент, который ускорит корректную индексацию сайта и в результате будет способствовать успеху проекта в целом.

Материал разработан агентством ФОРМ. Заходите на наш сайт http://formproduction.ru/, мы открыты к сотрудничеству!