Добавить в корзинуПозвонить
Найти в Дзене

Полный гид по настройке robots.txt: как управлять индексацией и защитой сайта

Сайт без хорошей индексации – это как карта без указаний. Поисковые боты сами решают, что важно, а что можно игнорировать. В этом процессе решающую роль играет один простой файл – robots.txt. В этой статье разберём, как его правильно создать, заполнить и использовать для максимальной эффективности SEO. Файл robots.txt — это текстовый документ, расположенный в корне вашего домена. Он передаёт поисковым роботам инструкции о том, какие части сайта они могут сканировать, а какие – нет. Такой контроль помогает распределить нагрузку на ваш сервер, ускорить сканирование критичных страниц и исключить из индексацию дубли, архивы и тестовые разделы. Файл должен называться robots.txt без заглавных букв и лишних символов. Разместите его в корне сайта: example.com/robots.txt. Поисковые роботы первый раз обращаются именно к этому адресу. Если файл недоступен, они продолжат сканирование в режиме по умолчанию. Размер файла не должен превышать 500 КБ, чтобы гарантировать его распознавание в Яндекс. Goo
Оглавление
   Полный гид по настройке robots.txt: как управлять индексацией и защитой сайта
Полный гид по настройке robots.txt: как управлять индексацией и защитой сайта

Сайт без хорошей индексации – это как карта без указаний. Поисковые боты сами решают, что важно, а что можно игнорировать. В этом процессе решающую роль играет один простой файл – robots.txt. В этой статье разберём, как его правильно создать, заполнить и использовать для максимальной эффективности SEO.

Что такое robots.txt и зачем он нужен?

Файл robots.txt — это текстовый документ, расположенный в корне вашего домена. Он передаёт поисковым роботам инструкции о том, какие части сайта они могут сканировать, а какие – нет. Такой контроль помогает распределить нагрузку на ваш сервер, ускорить сканирование критичных страниц и исключить из индексацию дубли, архивы и тестовые разделы.

Ключевые возможности настройки robots.txt

  • Блокировать лишние страницы и каталоги от сканирования.
  • Сквозить внимания поисковиков на самые важные разделы.
  • Разрешить сканирование только конкретным ботам.
  • Указать путь к карте сайта (sitemap.xml) и ускорить индексацию.
  • Удалять лишние параметры из URL и избавлять от дублированного контента.
  • Контролировать кеширование и прозрачность в поисковиках.

Общая структура и размещение файла

Файл должен называться robots.txt без заглавных букв и лишних символов.

Разместите его в корне сайта: example.com/robots.txt. Поисковые роботы первый раз обращаются именно к этому адресу. Если файл недоступен, они продолжат сканирование в режиме по умолчанию.

Размер файла не должен превышать 500 КБ, чтобы гарантировать его распознавание в Яндекс. Google может обрабатывать более крупные файлы, но ограничения всё равно работают.

Для поддоменов, например m.example.com, нужен отдельный robots.txt, так как правила применяются только к домену, где находится файл.

Основные директивы

ДирективаОписаниеUser-agentУказывает для какого бота применяются правила.DisallowЗапрещает сканирование указанных путей.AllowРазрешает сканирование конкретного пути, игнорируя более общие правила.SitemapСсылка на файл карты сайта, указывающая актуальные страницы.Clean-paramИгнорирует дополнительные параметры URL (только в Яндексе).

Пример запрета всем ботам, кроме Яндекса

User-agent: * Disallow: / User-agent: Yandex Allow: /

Блокировка всех PDF в Googlebot

User-agent: Googlebot Disallow: /*.pdf

Разрешение блога в Googlebot, остальные – запрет

User-agent: Googlebot Allow: /blog/ Disallow: /

Указание карты сайта

Sitemap: example.com/sitemap.xml

Удаление параметров сортировки в Яндексе

User-agent: Yandex Clean-param: sort_field&order /catalog/category/

Как корректно закрыть страницу от индексации?

Запрет в robots.txt означает только отсутствие сканирования. Если кто‑то ссылкой упомянет страницу, она может попасть в индекс без контента, доходчиво — через «тупой» сниппет.

Для полного исключения используйте:

  • Мета‑тег noindex в теле страницы.
  • HTTP‑заголовок X‑Robots‑Tag: noindex.
  • Атрибут rel=nofollow в ссылках.
  • Код возврата 401/403/404.
  • Удаление страницы с сервера.

Пример метатега robots

HTTP‑ответ 404: лучший способ скрыть устаревшую страницу

Когда вы просто удаляете файл, поисковики немедленно перестают его индексировать и перестают показывать в результатах.

Удаление уже проиндексированной страницы

Проверьте, не указывает ли сайт нужную страницу: example.com/old-contact. Если страница всё ещё доступна и не заблокирована, она останется в индексе.

После блокировки используйте инструменты удаления: Яндекс.Вебмастер и Google Search Console. В обоих сервисах можно запрашивать временное удаление, но только до 6 месяцев. Для постоянного результата убедитесь, что URL отсутсвует в robots.txt и возвращает 404/403/401.

Шаги в Яндекс.Вебмастере

  1. Войдите в инструмент.
  2. Введите URL в поле.
  3. Нажмите «Удалить».
  4. Служба покажет статус: «В очереди», «В процессе», «Удалена».

Google Search Console – временные удаления

  1. Перейдите в «Временные удаления».
  2. Выберите вариант «Удаление URL».
  3. Подтвердите запрос.

Лучшие практики и рекомендации SEO

  • Всегда используйте латиницу в URL и указывайте пути в robots.txt в ASCII.
  • Размещайте правила группами: по одному User-agent и хотя бы одному Disallow/Allow.
  • Не смешивайте правила без User-agent, иначе они объединятся в одну группу.
  • Проверьте файл на наличие ошибок через валидатор Yandex.Robot или Search Console.
  • Регулярно обновляйте sitemap.xml и уведомляйте поисковики о его смене.

Итоги

Файл robots.txt – мощный инструмент, но не универсальный. Он позволяет направить поисковых ботов, но гарантировать полное исключение нужной страницы должно быть признано в сочетании с другими методами (мета‑теги, заголовки, HTTP‑статусы). Следите за рекомендациями поисковых систем и периодически проверяйте файл на корректность.

Оригинал записи на нашем сайте: Полный гид по настройке robots.txt: как управлять индексацией и защитой сайта