Найти в Дзене
ТАМАРОВ/MiXAIT.ru

Robots.txt и sitemap.xml: настройка для индексации

Ваш сайт не появляется в поиске? Или наоборот — индексируются страницы, которые не должны быть видны (админка, технические разделы, дубли)? Проблема может быть в двух критически важных файлах: robots.txt и sitemap.xml. Они управляют тем, как поисковые роботы сканируют и индексируют ваш сайт. В этой статье — простыми словами о том, что это такое, зачем нужно и как настроить правильно за 15 минут. Robots.txt — это текстовый файл, который лежит в корне сайта и сообщает поисковым роботам (Google, Яндекс), какие страницы можно сканировать, а какие — нельзя. Расположение: https://ваш-сайт.ru/robots.txt Пример: User-agent: * Disallow: /admin/ Disallow: /cgi-bin/ Allow: / Sitemap: https://ваш-сайт.ru/sitemap.xml Например: Зачем: Чтобы Google не тратил краулинговый бюджет на бесполезные страницы. Если у вас есть разделы только для клиентов или сотрудников — закройте их от индексации. Важно: Robots.txt НЕ защищает от хакеров. Это инструкция для поисковых роботов, а не файервол. Если у вас есть в
Оглавление

Ваш сайт не появляется в поиске? Или наоборот — индексируются страницы, которые не должны быть видны (админка, технические разделы, дубли)?

Проблема может быть в двух критически важных файлах: robots.txt и sitemap.xml. Они управляют тем, как поисковые роботы сканируют и индексируют ваш сайт.

В этой статье — простыми словами о том, что это такое, зачем нужно и как настроить правильно за 15 минут.

Что такое robots.txt

Robots.txt — это текстовый файл, который лежит в корне сайта и сообщает поисковым роботам (Google, Яндекс), какие страницы можно сканировать, а какие — нельзя.

Расположение: https://ваш-сайт.ru/robots.txt

Пример:

User-agent: *

Disallow: /admin/

Disallow: /cgi-bin/

Allow: /

Sitemap: https://ваш-сайт.ru/sitemap.xml

Зачем нужен robots.txt

✅ 1. Закрыть от индексации технические страницы

Например:

  • Админ-панель (/admin/, /wp-admin/)
  • Страницы корзины и оформления заказа
  • Дублирующие URL (сортировки, фильтры)
  • Служебные файлы

Зачем: Чтобы Google не тратил краулинговый бюджет на бесполезные страницы.

✅ 2. Защитить приватные данные

Если у вас есть разделы только для клиентов или сотрудников — закройте их от индексации.

Важно: Robots.txt НЕ защищает от хакеров. Это инструкция для поисковых роботов, а не файервол.

✅ 3. Избежать дублей в индексе

Если у вас есть версии страниц с параметрами (?sort=price, ?color=red) — закройте их, чтобы Google не считал их отдельными страницами.

✅ 4. Указать путь к карте сайта

В robots.txt можно добавить ссылку на sitemap.xml, чтобы роботы сразу нашли её.

Структура robots.txt: базовый синтаксис

User-agent (для кого инструкция)

Указывает, к какому роботу относится правило:

User-agent: * # для всех роботов

User-agent: Googlebot # только для Google

User-agent: Yandex # только для Яндекс

Disallow (что запретить)

Запрещает индексацию:

Disallow: /admin/ # запретить папку /admin/

Disallow: /cart/ # запретить корзину

Disallow: /*.pdf$ # запретить все PDF-файлы

Allow (что разрешить)

Разрешает индексацию (используется для исключений):

Disallow: /private/

Allow: /private/public-page.html # исключение из запрета

Sitemap (ссылка на карту сайта)

Указывает путь к sitemap.xml:

Sitemap: https://ваш-сайт.ru/sitemap.xml

Примеры robots.txt для разных типов сайтов

Пример 1: Для корпоративного сайта

User-agent: *

Disallow: /admin/

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /*.pdf$

Allow: /

Sitemap: https://site.ru/sitemap.xml

Пример 2: Для интернет-магазина

User-agent: *

Disallow: /cart/

Disallow: /checkout/

Disallow: /my-account/

Disallow: /*?sort=

Disallow: /*?filter=

Allow: /

Sitemap: https://shop.ru/sitemap.xml

Объяснение: Закрываем корзину, оформление заказа и URL с параметрами сортировки/фильтрации.

Пример 3: Для WordPress

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins/

Disallow: /wp-content/themes/

Allow: /wp-content/uploads/

Sitemap: https://blog.ru/sitemap.xml

Объяснение: Закрываем админку и служебные папки, но разрешаем изображения в /uploads/.

Что такое sitemap.xml

Sitemap.xml — это XML-файл со списком всех важных страниц сайта, которые нужно проиндексировать.

Расположение: https://ваш-сайт.ru/sitemap.xml

Пример структуры:

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

<url>

<loc>https://site.ru/</loc>

<lastmod>2025-10-01</lastmod>

<priority>1.0</priority>

</url>

<url>

<loc>https://site.ru/services/</loc>

<lastmod>2025-09-28</lastmod>

<priority>0.8</priority>

</url>

</urlset>

Зачем нужен sitemap.xml

✅ 1. Ускорить индексацию новых страниц

Когда вы публикуете новую статью или товар — Google узнает об этом быстрее, если страница есть в sitemap.

✅ 2. Помочь роботам найти все важные страницы

Если у вас сложная структура сайта или страницы глубоко вложены — sitemap покажет роботам путь.

✅ 3. Передать дополнительную информацию

Например:

  • lastmod — дата последнего изменения (помогает роботам понять, когда обновлять индекс)
  • priority — приоритет страницы (от 0.0 до 1.0)

Как создать sitemap.xml

Способ 1: Автоматически (для WordPress)

Используйте плагины:

  • Yoast SEO (автоматически создаёт sitemap)
  • Rank Math
  • Google XML Sitemaps

После установки sitemap доступен по адресу: https://ваш-сайт.ru/sitemap_index.xml

Способ 2: Через онлайн-генераторы

Для небольших сайтов (до 500 страниц):

  • XML-sitemaps.com
  • Screaming Frog SEO Spider

Вводите URL сайта → получаете готовый файл → загружаете в корень сайта.

Способ 3: Вручную (для простых сайтов)

Если у вас 5-10 страниц — можно создать вручную в текстовом редакторе, используя шаблон выше.

Google Search Console

  1. Выберите свой сайт
  2. Перейдите в раздел Файлы Sitemap
  3. Введите URL: sitemap.xml
  4. Нажмите Отправить

Google начнёт сканировать страницы из карты сайта.

Яндекс.Вебмастер

  1. Выберите сайт
  2. Перейдите в Индексирование → Файлы Sitemap
  3. Добавьте URL: https://ваш-сайт.ru/sitemap.xml
  4. Нажмите Добавить

Частые ошибки при настройке robots.txt и sitemap.xml

❌ Ошибка 1: Закрыли весь сайт от индексации

Пример неправильного robots.txt:

User-agent: *

Disallow: /

Результат: Сайт полностью исчезнет из поиска.

Как исправить:

User-agent: *

Allow: /

❌ Ошибка 2: В sitemap.xml добавлены страницы, закрытые в robots.txt

Если страница запрещена в robots.txt — не добавляйте её в sitemap. Это противоречие сбивает роботов с толку.

❌ Ошибка 3: Забыли обновить sitemap после добавления новых страниц

Если используете ручной sitemap — обновляйте его каждый раз при публикации новых страниц.

Решение: Используйте плагины или CMS, которые обновляют sitemap автоматически.

❌ Ошибка 4: Sitemap весит больше 50 МБ или содержит больше 50 000 URL

Лимиты:

  • Максимум 50 МБ
  • Максимум 50 000 URL в одном файле

Решение: Разделите на несколько файлов и создайте индексный sitemap:

<sitemapindex>

<sitemap>

<loc>https://site.ru/sitemap-pages.xml</loc>

</sitemap>

<sitemap>

<loc>https://site.ru/sitemap-products.xml</loc>

</sitemap>

</sitemapindex>

❌ Ошибка 5: Не указали ссылку на sitemap в robots.txt

Даже если вы добавили sitemap в Search Console — укажите ссылку в robots.txt. Это помогает другим поисковикам найти карту сайта.

Sitemap: https://ваш-сайт.ru/sitemap.xml

Как проверить правильность настройки

1. Проверка robots.txt

Откройте в браузере: https://ваш-сайт.ru/robots.txt

Должен открыться текстовый файл с правилами.

Тест в Google Search Console:

  1. Откройте раздел Проверка robots.txt
  2. Введите URL для проверки
  3. Нажмите Тест

Google покажет, разрешена ли индексация.

2. Проверка sitemap.xml

Откройте в браузере: https://ваш-сайт.ru/sitemap.xml

Должен открыться XML-файл со списком страниц.

Проверка в Search Console: После добавления sitemap проверьте статус:

  • Если статус Успешно — всё ок
  • Если Ошибка — читайте описание проблемы

Чек-лист: Настройка robots.txt и sitemap.xml за 15 минут

Шаг 1: Создайте robots.txt

  • Откройте текстовый редактор
  • Скопируйте шаблон для вашего типа сайта
  • Укажите пути к закрытым папкам
  • Добавьте ссылку на sitemap
  • Сохраните как robots.txt
  • Загрузите в корень сайта

Шаг 2: Создайте sitemap.xml

  • Установите плагин (для WordPress) или используйте генератор
  • Проверьте, что sitemap открывается по адресу /sitemap.xml

Шаг 3: Добавьте sitemap в поисковики

  • Откройте Google Search Console
  • Добавьте sitemap
  • Откройте Яндекс.Вебмастер
  • Добавьте sitemap

Шаг 4: Проверьте

  • Откройте robots.txt в браузере
  • Проверьте sitemap.xml в браузере
  • Проверьте статус в Search Console

Когда обращаться к специалистам

Вы справитесь сами, если:

  • Сайт на WordPress с плагином Yoast SEO
  • Сайт небольшой (до 100 страниц)
  • Нужно закрыть только стандартные разделы (/admin/, /cart/)

Нужна помощь, если:

  • Сайт на кастомной CMS без автоматического sitemap
  • Сложная структура с фильтрами и параметрами URL
  • Нужно настроить индексацию многорегионального сайта
  • Возникают ошибки в Search Console

Мы помогаем настроить robots.txt и sitemap.xml для корректной индексации. Аудит текущих настроек, исправление ошибок, мониторинг в Search Console.

📩 Свяжитесь с нами для бесплатной диагностики индексации вашего сайта.

Выводы

  1. Robots.txt управляет доступом роботов к страницам. Закрывайте технические разделы, но не блокируйте важный контент.
  2. Sitemap.xml помогает роботам найти все важные страницы. Создавайте автоматически через плагины или CMS.
  3. Обязательно добавьте sitemap в Search Console и Вебмастер. Это ускорит индексацию новых страниц.
  4. Проверяйте регулярно. После каждого обновления сайта проверяйте, что robots.txt и sitemap актуальны.

Следующий шаг: Откройте https://ваш-сайт.ru/robots.txt прямо сейчас. Если файл отсутствует или содержит только служебные записи — создайте правильный robots.txt по шаблонам выше.

🔗 Полезные ссылки: