Файл robots.txt является обязательным для всех типов сайтов, и его правильное составление является ключевым для верной индексации страниц вашего ресурса. Первое, куда обращаются поисковые боты - файл robots.txt, в котором вы можете запретить или разрешить индексацию как всего сайта, так и отдельных страниц или разделов; в этом и заключается его основная функция.
При отсутствии файла robots.txt поисковики могут замедлить индексацию сайта, особенно если он только появился в сети. Поэтому как только выкладываете первые страницы в интернет, сразу добавьте его в корень сайта: www.адрес.ru/robots.txt
Основные директивы файла robots.txt:
1. User-agent: указывает, для каких поисковых ботов предназначены команды. Если поставить *, то будет означать, что для всех.
Пример:
User-agent: *
2. Disallow: позволяет закрыть от индексации определенные страницы или разделы сайта.
Пример:
User-agent: *
Disallow: /test*
Все адреса, содержащие конструкцию вида www.адрес.ru/test, будут исключены из поисковой выдачи.
3. Allow: требуется, когда вам необходимо открыть доступ поисковым системам только к нескольким разделам сайта.
Пример:
User-agent: *
Disallow: /
Allow: /test*
Весь сайт будет исключен из поисковой выдачи, за исключением адресов, содержащих конструкцию вида www.адрес.ru/test
4. Символ решетки: используется для комментирования в файле. Все, что идет после него до новой строки, не учитывается поисковыми роботами.
Пример:
User-agent: *
Disallow: /
Allow: /test*
# Запретили к индексации весь сайт, кроме раздела test.
# Надо не забыть потом убрать, когда запустим остальные.
5. Sitemap: используется для указания адреса карты сайта.
Пример:
User-agent: *
Disallow: /
Allow: /test*
# Запретили в индексации весь сайт, кроме раздела test
# Надо не забыть потом убрать, когда запустим остальные.
Sitemap: http://www.адрес.ru/sitemap.xml
6. Host: используется Яндексом для определения главного зеркала сайта. В данном случае ставим с www. Обязательно после директив disallow или allow. Сейчас приоритет у 301 редиректа, поэтому директива host практически перестала влиять.
Пример:
User-agent: *
Disallow: /
Allow: /test*
Host: www.адрес.ru
# Запретили к индексации весь сайт, кроме раздела test
# Надо не забыть потом убрать, когда запустим остальные.
Sitemap: http://www.адрес.ru/sitemap.xml
Что важно учесть при правильном составлении файла robots.txt:
1. Отсутствие пустых строк: поисковые системы могут посчитать, что пустая строка является концом файла и не учесть все, что идет ниже. Пустая строка по стандартам может идти только перед User-agent: это требуется, когда для разных поисковых ботов вы указываете разные директивы.
2. Верные названия директив и их порядок: если вы сделаете опечатку или перепутаете порядок, то роботы не поймут команду и проигнорируют ее. Дополнительно используйте сервис проверки robots.txt от Яндекса: https://webmaster.yandex.ru/robots.xml
3. Код 200: при обращении робота к robots.txt сервер должен возвращать код 200, тем самым указывая, что файл доступен для загрузки.
Что дает использование файла robots.txt:
1. Возможность закрыть от индексации технические страницы и дубликаты: если нет иной возможности убрать их с сайта или скрыть для поисковых роботов через js-скрипты. Обычно сюда попадают страницы поиска по сайту, фильтров и сортировок, страницы для печати, профили пользователей и т. п. Дополнительно можно использовать мета теги noindex, follow.
2. Возможность целиком закрыть сайт от индексации: требуется, когда выкладывают в интернет еще не до конца наполненную версию. Это крайний случай, когда горят сроки или прошли дедлайны, в остальных вариантах лучше отладку проводить на поддомене, в robots.txt которого также стоит запрет на индексацию.
3. Возможность указания Яндексу на главное зеркало: рекомендуется прописывать, хотя в приоритете все равно стоит 301 редирект.
4. Карта сайта: позволяет ускорить индексацию сайта.
После подведения итогов, становится понятно, что файл robots.txt играет важную роль, и его использование оправданно для решения различных задач, направленных на seo-продвижение сайта в поисковых системах.
Вернуться к содержанию SEO-курса
Мои услуги:
Консультации по SEO от 75000 р.
Продвижение сайтов от 75000 р.
Разработка сайтов под SEO от 600000 р.
Форма для связи на сайте: blagih.ru
Алексей Благих
Оригинал статьи: https://webimho.ru/topic/11919/