18 подписчиков

Настраиваем правильный robots.txt

4 сентября 20194 сен 2019

8 мин

Оглавление

Как запретить индексацию сайта в robots.txt
Настройка robots.txt
Директивы robots.txt

Подготовили для вас полную и максимально подробную инструкцию по настройке robots.txt. Рекомендуем и для новичков, и для маститых сеошников. Полезные вещи найдете 100%!

Итак, robots.txt – это текстовый файл, содержащий инструкции для поисковых роботов. Другими словами, он помогает попасть в поиск нужным страницам и не дает проиндексировать нежелательный контент.

Если у сайта нет файла robots.txt, боты считают, что ресурс полностью открыт и добавляют все страницы. А это нежелательно, так как на любом web сайте есть контент не для общего пользования — технические разделы, администраторские панели, учетные данные пользователей и т.п.

Как запретить индексацию сайта в robots.txt

Сразу уточним, что закрытый файл роботс — не гарантирует, что ни одна страница сайта не попадет в индекс. Поисковые системы могут проигнорировать запрет на индексацию. Самым надежным способом защитить сайт от попадания в открытый доступ является использование метатега robots вида <meta name="robots" content="noindex, nofollow"/> . Это выражение размещается в коде страницы между тегами <head> </head>

Тем не менее, если вы все же решили закрыть сайт от индексации с помощью файла роботс, то разместите в корне сайта файл robots.txt с таким содержанием:

User-agent: *
Disallow: /

Если надо запретить индексацию в Яндекс, файл будет выглядеть так:

User-agent: Yandex
Disallow: /

Запрет индексации сайта для Гугл:

User-agent: Googlebot
Disallow: /

Настройка robots.txt

Настройка заключается в создании, наполнении и размещении файла.

Откройте любой текстовый редактор: блокнот, notepad и т.п. Создайте пустой файл с именем robots.txt.

Теперь следует разобраться с основными директивами — текстовыми конструкциями, которые задают правила для поисковых роботов.

Директивы robots.txt

1. User-agent — указывает поискового робота. Мы настоятельно рекомендуем разделять файл robots.txt для основных ботов — Яндекса, Гугл и остальных.

Примеры использования директивы User-agent:

User-agent: Yandex # будет использована всеми роботами Яндекса

User-agent: Googlebot # будет использована всеми роботами Гугл

User-agent: * # будет использована всеми роботами

Алгоритм работы директивы следующий: робот ищет все выражения User-agent. Последовательность их расположения не важна. Если бот находит директиву, где он прямо указан, все остальные User-agent будут проигнорированы. Если инструкции конкретному роботу нет, используется директива User-agent: * .

Важный момент: перед каждой директивой User-agent следует вставлять пустой перевод строки. Символ # используется для комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.

2. Disallow и Allow — используются, соответственно, для запрета и разрешения индексации отдельных разделов и страниц сайта.

С помощью Disallow можно закрыть страницы с конфиденциальными данными (корзина, личный кабинет и т.п.), дубли страниц (страницы сортировки и т.п.), административный раздел и другие документы.

Примеры использования Disallow:

User-agent: Googlebot

Disallow: / # запрещена индексация всего сайта для робота Гугл

User-agent: Yandex

Disallow: /data # роботу Яндекс запрещена индексация страниц, адрес которых начинается с /data

User-agent: *

Disallow: /page? # всем роботам запрещена индексация страниц, содержащих параметр page?

Принцип действия Allow прямо противоположен Disallow. Эта директива разрешает индексацию разделов и страниц сайта.

Примеры использования Allow:

User-agent: *

Allow: /news

Disallow: /

# всем роботам запрещена индексация всех страниц сайта,

# за исключением начинающихся с /news

В правилах robots.txt используются спецсимволы * и $.

* - любая последовательность символов. По умолчанию считается, что к любой записи в robots.txt в конце приписан знак *. Символ $ отменяет *, который, как подразумевается, расположен в конце строки.

Например:

User-agent: *

Disallow: /rules$ # запрещает /rules,

# но не запрещает /rules.php

User-agent: Yandex

Disallow: /rules # запрещает и /rules,

# и /rules.php

При совместном использовании директив Disallow и Allow не имеет значения порядок их нахождения в файле. Робот сам сортирует строки по длине префикса и применяет правила последовательно.

Важно: при конфликте директив Disallow и Allow приоритет отдается Allow

Пустые переносы строки между User-agent, Disallow и Allow не допускаются!

3. Директива Sitemap. При наличии карты сайта в формате xml, можно указать путь с помощью директивы Sitemap. Если используется несколько файлов (например карта для документов и карта для изображений), указывать следует все.

Например:

User-agent: Googlebot

Disallow:

Sitemap: https://site.ru/sitemap.xml

Sitemap: https://site.ru/sitemap-image.xml

Важно: указывать директиву Sitemap можно в любом месте файла robots.txt, вне зависимости от секции User-agent.

4. Директива Crawl-delay. Поддерживается Яндексом, Mail.Ru, Bing, Yahoo. Гугл от нее отказался.

Crawl-delay искусственно замедляет робота, если сервер не успевает обрабатывать запросы. Яндекс рекомендует, прежде чем устанавливать тайм-аут для бота, проверить, не замедляют ли обход сайта служебные страницы, дубли и прочий мусор и запретить их обход с помощью Disallow.

Значения Crawl-delay могут быть дробными, например, 0,6 или 1,2. Значение директивы означает тайм-аут между запросами в секундах. Для Яндекса максимально допустимое значение Crawl-delay - 2.0.

Примеры:

User-agent: Yandex

Crawl-delay: 2.0 # задает тайм-аут в 2 секунды

User-agent: *

Crawl-delay: 0.5 # задает тайм-аут в 0.5 секунды

5. Директива Clean-param.

Важно: Директива, которая используется только в Яндекс!

Применяется для исключения загрузки дублей страниц с GET-параметрами, например: id сессий, utm-меток.

Например, на сайте есть страницы:

www.site.ru/news/igra

www.site.ru/news/igra?utm_source=yandex

www.site.ru/news/igra?utm_source=google

www.site.ru/news/igra?utm_source=cpc

Директива Clean-param запретит индексацию страниц с utm метками, и в индекс попадет только www.site.ru/news/igra:

User-agent: Yandex

Disallow:

Clean-param: utm_source

6. Директива Host — неактуальная, использовалась в Яндекс для идентификации главного зеркала при склейке сайтов. Сейчас механизм склейки реализован через 301 редирект, поэтому директиву H

Где разместить robots.txt

Файл robots.txt размещается в корне сайта, основном каталоге. Для тех, кто делает первые шаги в строительстве сайтов, ориентиром может послужить файл .htaccess или index.html

Вот пример размещения файла robots.txt:

Таким образом, в результате файл должен быть доступен по адресу site.ru/robots.txt

Индексация robots.txt

Файл robots.txt должен быть доступным для индексации поисковыми системами. Для этого он должен удовлетворять следующим условиям:

— размер файла не больше 32 КБ;

— при обращении к файлу сервер отдает ответ 200. Проверить ответ сервера можно в одноименном инструменте Панели вебмастера Яндекс:

Проверка ответа сервера в панели вебмастера Яндекса

Примеры robots.txt

Надо понимать, что robots.txt решает задачи каждого отдельного сайта и потому индивидуален. Тем не менее, есть общие разделы, страницы, которые желательно запрещать для каждого движка сайта, cms

Robots.txt для wordpress

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

User-agent: Googlebot
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Sitemap: https://site.ru/sitemap.xml

Robots.txt для битрикс

User-agent: *

Disallow: /*index.php$

Disallow: /bitrix/

Disallow: /auth/

Disallow: /personal/

Disallow: /upload/

Disallow: /search/

Disallow: /*/search/

Disallow: /*/slide_show/

Disallow: /*/gallery/*order=*

Disallow: /*?*

Disallow: /*&print=

Disallow: /*register=

Disallow: /*forgot_password=

Disallow: /*change_password=

Disallow: /*login=

Disallow: /*logout=

Disallow: /*auth=

Disallow: /*action=*

Disallow: /*bitrix_*=

Disallow: /*backurl=*

Disallow: /*BACKURL=*

Disallow: /*back_url=*

Disallow: /*BACK_URL=*

Disallow: /*back_url_admin=*

Disallow: /*print_course=Y

Disallow: /*COURSE_ID=

Disallow: /*PAGEN_*

Disallow: /*PAGE_*

Disallow: /*SHOWALL

Disallow: /*show_all=

User-agent: Yandex

Disallow: /*index.php$

Disallow: /bitrix/

Disallow: /auth/

Disallow: /personal/

Disallow: /upload/

Disallow: /search/

Disallow: /*/search/

Disallow: /*/slide_show/

Disallow: /*/gallery/*order=*

Disallow: /*?*

Disallow: /*&print=

Disallow: /*register=

Disallow: /*forgot_password=

Disallow: /*change_password=

Disallow: /*login=

Disallow: /*logout=

Disallow: /*auth=

Disallow: /*action=*

Disallow: /*bitrix_*=

Disallow: /*backurl=*

Disallow: /*BACKURL=*

Disallow: /*back_url=*

Disallow: /*BACK_URL=*

Disallow: /*back_url_admin=*

Disallow: /*print_course=Y

Disallow: /*COURSE_ID=

Disallow: /*PAGEN_*

Disallow: /*PAGE_*

Disallow: /*SHOWALL

Disallow: /*show_all=

User-agent: Googlebot

Disallow: /*index.php$

Disallow: /bitrix/

Disallow: /auth/

Disallow: /personal/

Disallow: /upload/

Disallow: /search/

Disallow: /*/search/

Disallow: /*/slide_show/

Disallow: /*/gallery/*order=*

Disallow: /*?*

Disallow: /*&print=

Disallow: /*register=

Disallow: /*forgot_password=

Disallow: /*change_password=

Disallow: /*login=

Disallow: /*logout=

Disallow: /*auth=

Disallow: /*action=*

Disallow: /*bitrix_*=

Disallow: /*backurl=*

Disallow: /*BACKURL=*

Disallow: /*back_url=*

Disallow: /*BACK_URL=*

Disallow: /*back_url_admin=*

Disallow: /*print_course=Y

Disallow: /*COURSE_ID=

Disallow: /*PAGEN_*

Disallow: /*PAGE_*

Disallow: /*SHOWALL

Disallow: /*show_all=

Sitemap: https://site.ru/sitemap.xml

Проверка robots.txt

После создания файла robots.txt его надо проверить на ошибки. Для этого рекомендуем инструмент панели вебмастера Яндекс:

Этот инструмент интересен тем, что можно проверить как существующий файл, размещенный на сервере, так и измененный, добавив его вручную.

Вывод:

Создав robots.txt, вы получите рабочий инструмент, который ускорит корректную индексацию сайта и в результате будет способствовать успеху проекта в целом.

Материал разработан агентством ФОРМ. Заходите на наш сайт http://formproduction.ru/, мы открыты к сотрудничеству!