Найти в Дзене

Правильный robots.txt для друпала

Оглавление

Данный материал нагло скопирован отсюда и совсем чуть-чуть модернизирован.

Что такое robots.txt

Это файлик лежащий в корне сайта. Роботы поисковых систем, при заходе на сайт, читают его содержимое и согласно тамошним указаниям обрабатывают сайт.

Много говорят, что поисковики могут сквозь пальцы смотреть на это дело. Особенно относительно Гугла это верно.

То есть по большому счету поисковые боты все равно облазят весь ваш сайт и заглянут в самые темные уголки выковыривая информацию о продажных ссылках и прочую. Однако, в поисковую выдачу закрытую в файле роботс информацию они не выведут. Хотя Гугл может, но уже не так рьяно.

Зачем собственно мы меняем его. Стандартный файл из поставки друпала работает же. Но в буржуинии нет Яндекса. Это Гугл (и гуглоподобные поисковики типа бинга и яху) читают роботс и принимают "к сведени". Наш любимый Яндекс так же это делает. Только вот Гугл к дублированию контенте относится мягко, чуть пожурив в выдаче и показав сопли в ней, а вот Яндекс тихо ставит признак "АГС" и в выдаче остается только главная страница. Выводить из АГС фильтра то ещё удовольствие, как и общение с службой поддержки "улучшайте Вас сайт...".

Так что обязательно к применению как сам по себе, так и как инструмент избаления от дублей страниц в друпале.

Требования к robots.txt

1. Находится в коне сайта.

2. Называется robots.txt и никак иначе (все буквы прописные и расширение строго такое)

3. Содержание соответсвует формату для данного файла. То есть в нем содержатся команды в соответсвии с принятым синтаксисом

Правильный robots.txt под друпал 7 версии

Важно! Перед изменением своего файла установите и настройте следующие модули системы:

1. PathAuto

2. GlobalRedirect

Иначе есть вероятность (и она почти 100%), что изменением файла Вы закроете индексацию всего своего сайта.

Из оригинально, авторского кода убраны заперты на ссылок на русском языке (грешен, пара материалов осталась, и на них ведут внешние ссылки), картинки из стандартного размещения в индекс попадут (вместе с хламом чуть-чуть), ну и  адрес сайта на свой заменил. За объяснениями смело посылаю к автору. Там всё подробно расписано и в комментариях все спорные моменты обмусолены.

Еще добавлено от меня Disallow: /comment/ и Disallow: /?q=comment/ - чтоб дубли комментов ушли.

User-agent: *Disallow: /database/Disallow: /includes/Disallow: /misc/Disallow: /modules/Disallow: /themes/Disallow: /scripts/Disallow: /updates/Disallow: /profiles/Disallow: /xmlrpc.phpDisallow: /cron.phpDisallow: /update.phpDisallow: /install.phpDisallow: /index.phpDisallow: /admin/Disallow: /comment/reply/Disallow: /comment/Disallow: /contact/Disallow: /logout/Disallow: /search/Disallow: /user/register/Disallow: /user/password/Disallow: /user/login/Disallow: /top-rated-Disallow: /messages/Disallow: /book/export/Disallow: /user2userpoints/Disallow: /myuserpoints/Disallow: /tagadelic/Disallow: /referral/Disallow: /aggregator/Disallow: /files/pin/Disallow: /your-votesDisallow: /comments/recentDisallow: /?q=comment/Sitemap: http://drboglav.ru/sitemap.xmlDisallow: /*/edit/Disallow: /*/delete/Disallow: /*/export/html/Disallow: /taxonomy/term/*/0$Disallow: /*/edit$Disallow: /*/outline$Disallow: /*/revisions$Disallow: /*/contact$Disallow: /*downloadpipeDisallow: /node$Disallow: /node/Disallow: /*&Disallow: /*?page=0Allow: /*?page=Disallow: /*?Host: drboglav.ru

Так же не забываем привести в порядок файл .htaccess 

В нем указываем как обращаться к сайту с www  или без. Если с www, то и в robots.txt требуется указываать адрес с www.

В заключении. При обновлении друпала на новую версию не затрите текущий файл роботс. Да и штаксес тоже.

Яндекс творит чудеса. Добавляю статью в аддурилку яндекса. Статье 3 часа. И... вижу надпись "Указанный URL уже проиндексирован." 

От Гугла еще мог ожидать такое, но чтобы Великий и Ужасный Яндекс выдал - нонсенс. Мегакруто. Скорее всего стечение обстоятельств = публикация материала и заход быстробота. Явно не в основной выдаче страничка. Или помогли оригинальные тексты..

Робот тхт
Робот тхт

Коммент - подписка - лайк поддержит меня в наполнении канала.

Рекомендую свои статьи:

  • Открыть docx xlsx в офисе 2003.
  • Виндовс 10 не подключает сеть Wi-fi
  • Что можно удалить из папки Windows
  • Горячие клавиши Windows Win+
  • Тормозит компьютер с HDD диском - решаем проблему в 99% случаев
  • Легко и быстро очищаем системный диск С.
  • В браузере смотрим пароли и удаляем вирусы, которые майнят на вашем ПК.