4 подписчика

Файл robots.txt - что это такое, зачем нужен и как его создать?

27 марта 202327 мар 2023

4 мин

Оглавление

Как правильно составить robots
Какие директивы должны быть в robots.txt
Как проверить robots.txt

Сегодня поговорим о файле robots.txt. Казалось бы, один маленький текстовый файл в корневой папке вашего сайта, а может порушить всю оптимизацию.

Итак, что же такое файл robots.txt - это текстовый файл, который содержит инструкции для поисковых систем, определяющие, какие страницы веб-сайта они должны индексировать или игнорировать.

Файл robots.txt также может содержать информацию о карте сайта и другой полезной информации для роботов поисковых систем. Его использование позволяет оптимизировать процесс индексации сайта, улучшить поисковую оптимизацию и защитить конфиденциальные данные.

Как правильно составить robots

Чтобы правильно настроить файл robots.txt, следует учитывать следующие рекомендации:

Перед созданием файла необходимо определить цели и задачи, которые он будет выполнять. То есть вы не должны просто скопировать шаблонный файл.
Следует использовать только те директивы, которые необходимы для достижения задач.
Размещение файла в корневой директории сайта делает его доступным для всех поисковых роботов.
Следует проверить файл перед публикацией на наличие ошибок.
Регулярно обновляйте файл при изменении сайта.

Какие директивы должны быть в robots.txt

В файле robots.txt используются следующие директивы:

User-agent: - устанавливает агента, который будет обрабатывать настройки. Например: Yandex, Googlebot или просто * - для всех.
Disallow: - запрещает роботу доступ к определенным страницам.
Allow: - разрешает роботу доступ к определенным страницам.
Sitemap: - указывает путь к карте сайта, содержащей ссылки на страницы сайта.
Crawl-delay: - задает время задержки между запросами на сервер для одного робота.
Clean-param (только для Яндекса) - закрывает для индексации страницы с параметрами (например, UTM-метки).

Как проверить robots.txt

Для проверки файла robots.txt можно использовать бесплатный сервис Google Search Console. Он позволяет проанализировать файл на наличие ошибок и рекомендации по улучшению его работы.

В Яндекс.Вебмастере также можно запустить проверку роботса. Для этого слева в меню нужно найти Инструменты и в открывшемся списке выбрать Анализ robots.txt

Что обязательно должно быть закрыто от индексации в файле robots.txt?

Все служебные страницы, страницы с результатами поиска и пр.
Личная информация: любые страницы, содержащие персональные данные пользователей, такие как имена, адреса, номера телефонов, адреса электронной почты и т. д.
Секретная информация: любые страницы, содержащие конфиденциальную информацию, которую нужно защитить от посторонних глаз, такие как пароли, ключи, данные банковских счетов и т. д.
Тестовая информация: любые страницы, которые не предназначены для публичного доступа, например, тестовые страницы, дубликаты контента, не оптимизированную для поисковых систем информацию.
Дубликаты: дубликаты страниц с одного сайта необходимо закрыть от индексации, чтобы не было дублирования содержания на страницах с одного сайта.

Самые частые ошибки при составлении robots.txt

1. Первая и самая грубая ошибки - забыть про файл robots.txt. Часто при разработке сайта программисты пишут в роботсе Disallow: / - это означает, что вообще весь сайт закрыт для индексации.

У меня на практике были случаи, когда приходил клиент с запросом, что сайт совсем не показывается в поиске. И как вы уже догадались, проблема была именно в Disallow: /.

2. Не открыть к индексации картинки. Обычно в файле robots.txt мы закрываем все админские, внтуренние папки. Например, для сайта на WordPress это выглядит так:
Disallow: /wp-

Но в таком случае, все картинки и файлы также будут закрыты для индексации. Поэтому мы используем директиву Allow:, чтобы открыть картинки:
Allow: */wp-*/*.png
Allow: */wp-*/*.jpg
Allow: */wp-*/*.jpeg
Allow: */wp-*/*.gif
Allow: */wp-*/*.svg
Allow: */wp-*/*.webp

3. Не обновлять файл robots.txt. Если вы создали шаблонный файл, проверили его на ошибки и он подходит для вашего сайта, то в принципе изменять его не нужно.
Но когда сайт растет и развивается, нередко приходится закрывать некоторые страницы от индексации. Например, из-за неуникального контента или пока страница в разработке. В этом случае важно не забыть удалить из роботс закрывающую директиву, после того как страница готова.

Пример файла robots.txt

Покажу на примере robots.txt для сайта на WordPress, так как эта CMS самая популярная.

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /wp/
Disallow: *?s=
Disallow: *&s=
Disallow: /search/
Disallow: /author/
Disallow: /users/
Disallow: */trackback
Disallow: */feed
Disallow: */rss
Disallow: */embed
Disallow: /xmlrpc.php
Disallow: *utm*=
Disallow: *openstat=
Allow: */uploads
Allow: */amp
Allow: /*.js
Allow: /*.css
Allow: */fonts
Sitemap: https://site.ru/sitemap.xml

Если у вас есть сайт и вы хотите понять нужно ли ему SEO - обращайтесь ко мне за консультацией.
Я проведу предварительный анализ сайта и его конкурентов, и на часовом созвоне, расскажу вам о перспективах, составлю стратегию продвижения и отвечу на ваши вопросы.

Пишите на почту sister-seo@yandex.ru