Найти в Дзене
SEO‑Макс

Секретная инструкция для роботов: как файл robots.txt управляет поисковиками и как его настроить

Допустим, что твой сайт — это новая квартира. Ты приглашаешь гостей (пользователей), но также к тебе заходят специальные роботы от Яндекса и Google, чтобы изучить твое жилье и рассказать о нем всему миру. А что, если в квартире есть комнаты, куда гостям заходить не нужно? Например, кладовка с хламом или кабинет с личными документами. Как вежливо сказать об этом роботам? Именно для этого существует файл robots.txt — это простая, но очень важная инструкция для поисковых роботов. Robots.txt — это небольшой текстовый файл, который лежит в корне твоего сайта (например, мойсайт.ru/robots.txt). Его задача — вежливо указать поисковым роботам, какие разделы сайта можно сканировать, а какие — нет. Важно: Этот файл не запрещает индексацию страниц! Это всего лишь просьба к роботам. Злоумышленники или некоторые невоспитанные роботы могут его проигнорировать. Но авторитетные поисковики, like Яндекс и Google, всегда соблюдают эти правила. Это обычный текстовый файл. Его можно создать в Блокноте на ко
Оглавление

Допустим, что твой сайт — это новая квартира. Ты приглашаешь гостей (пользователей), но также к тебе заходят специальные роботы от Яндекса и Google, чтобы изучить твое жилье и рассказать о нем всему миру.

А что, если в квартире есть комнаты, куда гостям заходить не нужно? Например, кладовка с хламом или кабинет с личными документами. Как вежливо сказать об этом роботам?

Именно для этого существует файл robots.txt — это простая, но очень важная инструкция для поисковых роботов.

Что такое robots.txt? Объясняю на пальцах

Robots.txt — это небольшой текстовый файл, который лежит в корне твоего сайта (например, мойсайт.ru/robots.txt). Его задача — вежливо указать поисковым роботам, какие разделы сайта можно сканировать, а какие — нет.

  • Простыми словами: Это табличка на двери: «Роботам, пожалуйста, не заходите в эту комнату».

Важно: Этот файл не запрещает индексацию страниц! Это всего лишь просьба к роботам. Злоумышленники или некоторые невоспитанные роботы могут его проигнорировать. Но авторитетные поисковики, like Яндекс и Google, всегда соблюдают эти правила.

Зачем он вообще нужен? 3 главные причины

  1. Скрыть служебные файлы. Чтобы поисковики не индексировали страницы входа в админку (/wp-admin), результаты поиска по сайту или служебные папки. Это не несет пользы для пользователей из поиска.
  2. Не тратить краулинговый бюджет. У каждого сайта есть ограниченное внимание со стороны роботов. Зачем им тратить время на сканирование мусорных страниц, если они могут потратить его на изучение ваших крутых статей?
  3. Закрыть от индексации дубли страниц. Например, версии сайта для печати или страницы с фильтрами в интернет-магазине, которые могут создавать дублирующийся контент.

Как выглядит и как создается robots.txt?

Это обычный текстовый файл. Его можно создать в Блокноте на компьютере и загрузить в корневую папку сайта через файловый менеджер хостинга.

Сам файл состоит из правил (директив). Давай разберем самые главные из них.

Основные директивы robots.txt

1. User-agent — определяем, для кого правило

Эта директива указывает, какому именно роботу адресовано правило.

  • User-agent: * — звездочка означает «все роботы».
  • User-agent: Yandex — правило только для робота Яндекса.
  • User-agent: Googlebot — правило только для основного робота Google.

2. Disallow — запрещаем доступ

Самая главная директива. Она говорит роботу, какие разделы ему НЕЛЬЗЯ сканировать.

  • Disallow: /wp-admin/ — запрещает доступ ко всей папке wp-admin и всему, что внутри нее.
  • Disallow: /search/ — запрещает сканировать страницы поиска по сайту.
  • Disallow: / — один слеш запрещает доступ ко ВСЕМУ сайту. Используйте это только если хотите полностью закрыть сайт от поисковиков (например, на время разработки).

3. Allow — разрешаем доступ (внутри запрета)

Иногда нужно запретить целую папку, но оставить доступ к одному файлу внутри нее.

text

User-agent: *
Disallow: /files/
Allow: /files/my-cool-document.pdf

Эта запись говорит: «Всем роботам запрещено сканировать папку /files/, но можно посмотреть файл my-cool-document.pdf».

4. Sitemap — указываем путь к карте сайта

Очень полезная директива! Она подсказывает роботам, где находится sitemap.xml — файл с полным списком всех страниц вашего сайта, которые вы хотите проиндексировать.

  • Sitemap: https://мойсайт.ru/sitemap.xml

Готовые примеры для самых популярных случаев

Пример 1: Стандартный robots.txt для сайта на WordPress

text

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-login.php
Disallow: /search/

Sitemap: https://мойсайт.ru/sitemap.xml

Этот файл закрывает от роботов все основные служебные папки и файлы WordPress.

Пример 2: Как полностью закрыть сайт от индексации

text

User-agent: *
Disallow: /

Используйте это ТОЛЬКО если вы не хотите, чтобы сайт показывался в поиске вообще (например, на время разработки).

Как проверить, что всё работает правильно?

  1. Просто открой файл в браузере! Перейди по адресу твойсайт.ru/robots.txt и посмотри, что внутри.
  2. Используй инструменты для вебмастеров:
    В Яндекс.Вебмастере есть «Анализ robots.txt».
    В
    Google Search Console в разделе «Обход» -> «Инструмент проверки robots.txt».

Эти инструменты не только покажут файл, но и укажут на ошибки, если они есть.

Итог: 5 простых шагов к правильному robots.txt

  1. Создай текстовый файл с именем robots.txt.
  2. Пропиши основные правила, запрещающие доступ к служебным разделам (как в примере для WordPress выше).
  3. Не забудь добавить директиву Sitemap с адресом твоей карты сайта.
  4. Загрузи файл в корневую папку твоего хостинга (туда же, где лежит index.php или index.html).
  5. Проверь его через Яндекс.Вебмастер и Google Search Console.

Robots.txt — это не магия, а базовый инструмент вежливости по отношению к поисковым системам. Создай его правильно, и роботы будут фокусироваться на самом важном, помогая твоему сайту быстрее и эффективнее продвигаться в топ выдачи.