Подготовили для вас полную и максимально подробную инструкцию по настройке robots.txt. Рекомендуем и для новичков, и для маститых сеошников. Полезные вещи найдете 100%!
Итак, robots.txt – это текстовый файл, содержащий инструкции для поисковых роботов. Другими словами, он помогает попасть в поиск нужным страницам и не дает проиндексировать нежелательный контент.
Если у сайта нет файла robots.txt, боты считают, что ресурс полностью открыт и добавляют все страницы. А это нежелательно, так как на любом web сайте есть контент не для общего пользования — технические разделы, администраторские панели, учетные данные пользователей и т.п.
Как запретить индексацию сайта в robots.txt
Сразу уточним, что закрытый файл роботс — не гарантирует, что ни одна страница сайта не попадет в индекс. Поисковые системы могут проигнорировать запрет на индексацию. Самым надежным способом защитить сайт от попадания в открытый доступ является использование метатега robots вида <meta name="robots" content="noindex, nofollow"/> . Это выражение размещается в коде страницы между тегами <head> </head>
Тем не менее, если вы все же решили закрыть сайт от индексации с помощью файла роботс, то разместите в корне сайта файл robots.txt с таким содержанием:
User-agent: *
Disallow: /
Если надо запретить индексацию в Яндекс, файл будет выглядеть так:
User-agent: Yandex
Disallow: /
Запрет индексации сайта для Гугл:
User-agent: Googlebot
Disallow: /
Настройка robots.txt
Настройка заключается в создании, наполнении и размещении файла.
Откройте любой текстовый редактор: блокнот, notepad и т.п. Создайте пустой файл с именем robots.txt.
Теперь следует разобраться с основными директивами — текстовыми конструкциями, которые задают правила для поисковых роботов.
Директивы robots.txt
1. User-agent — указывает поискового робота. Мы настоятельно рекомендуем разделять файл robots.txt для основных ботов — Яндекса, Гугл и остальных.
Примеры использования директивы User-agent:
User-agent: Yandex # будет использована всеми роботами Яндекса
User-agent: Googlebot # будет использована всеми роботами Гугл
User-agent: * # будет использована всеми роботами
Алгоритм работы директивы следующий: робот ищет все выражения User-agent. Последовательность их расположения не важна. Если бот находит директиву, где он прямо указан, все остальные User-agent будут проигнорированы. Если инструкции конкретному роботу нет, используется директива User-agent: * .
Важный момент: перед каждой директивой User-agent следует вставлять пустой перевод строки. Символ # используется для комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.
2. Disallow и Allow — используются, соответственно, для запрета и разрешения индексации отдельных разделов и страниц сайта.
С помощью Disallow можно закрыть страницы с конфиденциальными данными (корзина, личный кабинет и т.п.), дубли страниц (страницы сортировки и т.п.), административный раздел и другие документы.
Примеры использования Disallow:
User-agent: Googlebot
Disallow: / # запрещена индексация всего сайта для робота Гугл
User-agent: Yandex
Disallow: /data # роботу Яндекс запрещена индексация страниц, адрес которых начинается с /data
User-agent: *
Disallow: /page? # всем роботам запрещена индексация страниц, содержащих параметр page?
Принцип действия Allow прямо противоположен Disallow. Эта директива разрешает индексацию разделов и страниц сайта.
Примеры использования Allow:
User-agent: *
Allow: /news
Disallow: /
# всем роботам запрещена индексация всех страниц сайта,
# за исключением начинающихся с /news
В правилах robots.txt используются спецсимволы * и $.
* - любая последовательность символов. По умолчанию считается, что к любой записи в robots.txt в конце приписан знак *. Символ $ отменяет *, который, как подразумевается, расположен в конце строки.
Например:
User-agent: *
Disallow: /rules$ # запрещает /rules,
# но не запрещает /rules.php
User-agent: Yandex
Disallow: /rules # запрещает и /rules,
# и /rules.php
При совместном использовании директив Disallow и Allow не имеет значения порядок их нахождения в файле. Робот сам сортирует строки по длине префикса и применяет правила последовательно.
Важно: при конфликте директив Disallow и Allow приоритет отдается Allow
Пустые переносы строки между User-agent, Disallow и Allow не допускаются!
3. Директива Sitemap. При наличии карты сайта в формате xml, можно указать путь с помощью директивы Sitemap. Если используется несколько файлов (например карта для документов и карта для изображений), указывать следует все.
Например:
User-agent: Googlebot
Disallow:
Sitemap: https://site.ru/sitemap.xml
Sitemap: https://site.ru/sitemap-image.xml
Важно: указывать директиву Sitemap можно в любом месте файла robots.txt, вне зависимости от секции User-agent.
4. Директива Crawl-delay. Поддерживается Яндексом, Mail.Ru, Bing, Yahoo. Гугл от нее отказался.
Crawl-delay искусственно замедляет робота, если сервер не успевает обрабатывать запросы. Яндекс рекомендует, прежде чем устанавливать тайм-аут для бота, проверить, не замедляют ли обход сайта служебные страницы, дубли и прочий мусор и запретить их обход с помощью Disallow.
Значения Crawl-delay могут быть дробными, например, 0,6 или 1,2. Значение директивы означает тайм-аут между запросами в секундах. Для Яндекса максимально допустимое значение Crawl-delay - 2.0.
Примеры:
User-agent: Yandex
Crawl-delay: 2.0 # задает тайм-аут в 2 секунды
User-agent: *
Crawl-delay: 0.5 # задает тайм-аут в 0.5 секунды
5. Директива Clean-param.
Важно: Директива, которая используется только в Яндекс!
Применяется для исключения загрузки дублей страниц с GET-параметрами, например: id сессий, utm-меток.
Например, на сайте есть страницы:
www.site.ru/news/igra
www.site.ru/news/igra?utm_source=yandex
www.site.ru/news/igra?utm_source=google
www.site.ru/news/igra?utm_source=cpc
Директива Clean-param запретит индексацию страниц с utm метками, и в индекс попадет только www.site.ru/news/igra:
User-agent: Yandex
Disallow:
Clean-param: utm_source
6. Директива Host — неактуальная, использовалась в Яндекс для идентификации главного зеркала при склейке сайтов. Сейчас механизм склейки реализован через 301 редирект, поэтому директиву H
Где разместить robots.txt
Файл robots.txt размещается в корне сайта, основном каталоге. Для тех, кто делает первые шаги в строительстве сайтов, ориентиром может послужить файл .htaccess или index.html
Вот пример размещения файла robots.txt:
Таким образом, в результате файл должен быть доступен по адресу site.ru/robots.txt
Индексация robots.txt
Файл robots.txt должен быть доступным для индексации поисковыми системами. Для этого он должен удовлетворять следующим условиям:
— размер файла не больше 32 КБ;
— при обращении к файлу сервер отдает ответ 200. Проверить ответ сервера можно в одноименном инструменте Панели вебмастера Яндекс:
Примеры robots.txt
Надо понимать, что robots.txt решает задачи каждого отдельного сайта и потому индивидуален. Тем не менее, есть общие разделы, страницы, которые желательно запрещать для каждого движка сайта, cms
Robots.txt для wordpress
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Googlebot
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Sitemap: https://site.ru/sitemap.xml
Robots.txt для битрикс
User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
User-agent: Yandex
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
User-agent: Googlebot
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=
Sitemap: https://site.ru/sitemap.xml
Проверка robots.txt
После создания файла robots.txt его надо проверить на ошибки. Для этого рекомендуем инструмент панели вебмастера Яндекс:
Этот инструмент интересен тем, что можно проверить как существующий файл, размещенный на сервере, так и измененный, добавив его вручную.
Вывод:
Создав robots.txt, вы получите рабочий инструмент, который ускорит корректную индексацию сайта и в результате будет способствовать успеху проекта в целом.
Материал разработан агентством ФОРМ. Заходите на наш сайт http://formproduction.ru/, мы открыты к сотрудничеству!