Привет друзья на связи Павел Гречко. В этой статье я расскажу вам как правильно настроить robots.txt. для WordPress и других популярных CMS. А так же более детально изучить как работает robots.txt. Так как он помогает закрывать не нужные страницы и экономить краулинговый бюджет который выделяет ПС на ваш сайт.
Robots.txt для WordPress
User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Allow: /wp-content/uploads/
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/*.css*
Allow: /wp-content/*.jpg
Allow: /wp-content/*.gif
Allow: /wp-content/*.png
Allow: /wp-content/*.js*
Allow: /wp-includes/js/
Sitemap: http://прописать ваш сайт.ru/sitemap.xml
Robots.txt для Bitrix
User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Allow: /bitrix/*.css
Allow: /bitrix/*.js
Sitemap: http://mysite.com/sitemap.xml
Robots.txt для Joomla
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Allow: /templates/*.css
Allow: /templates/*.js
Allow: /media/*.png
Allow: /media/*.js
Allow: /modules/*.css
Allow: /modules/*.js
Sitemap: http://mysite.com/sitemap.xml
Robots.txt для Opencart
User-agent: *
Disallow: /admin
Disallow: /cache
Disallow: /niks
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /index.php?route=account
Disallow: /index.php?route=account/account
Disallow: /index.php?route=checkout/cart
Disallow: /index.php?route=checkout/shipping
Disallow: /index.php?route=common/home
Disallow: /index.php?route=product/product/captcha
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /index.php?route=product/search
Disallow: /index.php?route=information/contact/captcha
Disallow: /index.php?route=information/information&information_id=
Disallow: /index.php?route=account/login
Disallow: /*route=account/
Disallow: /*route=account/login
Disallow: /*route=checkout/
Disallow: /*route=checkout/cart
Disallow: /*route=affiliate/
Disallow: /*route=product/search
Disallow: /*?sort=
Disallow: /*?sort
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*?order
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?manufacturer
Disallow: /*?keyword
Sitemap: http://site.ru/sitemap.xml
Как самому настроить robots.txt
Многие CMS уже имеют файл в корне сайта по умолчанию, и поэтому вам не обязательно создавать его с нуля. Вы можете только немного его подкорректировать под свои нужды.
Шаг 1. В текстовом редакторе создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами. Это не конечный вариант файла robots.txt. Этот набор правил редактируется под каждый сайт отдельно и зависит от того, что нужно закрыть, а что — оставить открытым.
Шаг 2. Проверьте файл в сервисе Яндекс.Вебмастер (пункт меню Анализ robots.txt).
Шаг 3. Загрузите файл в корневую директорию вашего сайта с помощью ФТП клиента.
Шаг 4. Проверить открываться ли файл по адресу http://Вашсайт.ру/robots.txt
Что надо закрывать от индексации в robots.txt
- страницы с личной информацией пользователей;
- корзину и сравнение товаров;
- страницы поиска;
- страницы с шаблонами сайта;
- страницы регистрации и авторизации;
- страницы для печати;
- административную часть сайта.
Что должен содержать файл robots.txt
- User-agent: *;
- Disallow: /админка сайта/;
- Sitemap: http://mysite.com/sitemap.xml
Будьте внимательны! Программисты при разработке сайта закрывают его, прописывают директиву Disallow: /.После запуска сайта забывают ее убрать, а роботы индексируют и выкидывают из поисковой базы весь сайт. Так же при переезде на https надо изменить ссылка на карту сайта.
Другие индивидуальные настройки
Crawl-delay; Директива Crawl-delay указывает время, которое роботы должны выдерживать между загрузкой двух страниц.
Clean-param; Для исключения страниц сайта, которые содержат динамические (GET) параметры.
Спецсимволы $, *, /, #;
Спецсимвол * (звёздочка) означает любую последовательность символов.
Спецсимвол # (решётка) используется для комментариев в файле для себя, пользователей.
Спецсимвол / (слеш) используется в каждой директиве Allow и Disallow. С помощью слеша можно запретить доступ к папке и её содержимому /category/ или ко всем страницам, которые начинаются с /category.
Спецсимвол $ запрещает конкретный url который вы указали
Вывод
Мы рассмотрели основные настройки файла Robots.txt. Для более подробного изучения читайте faq.
Использование robots.txt справка Яндекс
Часто задаваемые вопросы о роботах
О файлах robots.txt справка Google
+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+_+
ДОЧИТАЛИ ДО КОНЦА?
Для вас бонус!
Забирай мощный чек-лист для оптимизации сайта https://clck.ru/3G4jm8
+4 видео урока по технике в SEO! Продвигай сайт как лучшие агентства.
Подходит для сеошников, владельцев сайтов и студиям желающим наладить seo.
Ну и подписывайтесь!