Найти в Дзене
SEO-pulse

🤖 Robots.txt: что это, зачем нужен и как правильно его настроить

🤖 Robots.txt: что это, зачем нужен и как правильно его настроить Файл robots.txt — один из ключевых технических элементов SEO-оптимизации. Его задача — регулировать взаимодействие поисковых роботов с сайтом, указывая, какие страницы можно индексировать, а какие нужно исключить из поиска. Правильно настроенный robots.txt помогает ускорить индексацию, избавиться от дублей, снизить нагрузку на сервер и улучшить качество выдачи по вашему проекту. Ошибки в нём, наоборот, могут привести к выпадению важных страниц из индекса и серьёзным потерям трафика. В этой статье разберём, как работает robots.txt, что в нём обязательно должно быть и какие распространённые ошибки стоит избегать. 🧩 Что такое robots.txt? Robots.txt — это текстовый файл, расположенный по адресу: https://site.ru/robots.txt При первом визите поисковик всегда считывает этот файл. На основе его содержимого робот понимает: какие разделы и страницы можно сканировать; что запрещено к индексации; где находится sitemap.xml;

🤖 Robots.txt: что это, зачем нужен и как правильно его настроить

Файл robots.txt — один из ключевых технических элементов SEO-оптимизации. Его задача — регулировать взаимодействие поисковых роботов с сайтом, указывая, какие страницы можно индексировать, а какие нужно исключить из поиска.

Правильно настроенный robots.txt помогает ускорить индексацию, избавиться от дублей, снизить нагрузку на сервер и улучшить качество выдачи по вашему проекту. Ошибки в нём, наоборот, могут привести к выпадению важных страниц из индекса и серьёзным потерям трафика.

В этой статье разберём, как работает robots.txt, что в нём обязательно должно быть и какие распространённые ошибки стоит избегать.

🧩 Что такое robots.txt?

Robots.txt — это текстовый файл, расположенный по адресу:

https://site.ru/robots.txt

При первом визите поисковик всегда считывает этот файл. На основе его содержимого робот понимает:

какие разделы и страницы можно сканировать;

что запрещено к индексации;

где находится sitemap.xml;

какие URL-параметры нужно игнорировать;

какое зеркало сайта считать основным (для Яндекса — через директиву Host);

как часто и с какой нагрузкой посещать сайт.

🔍 Основные директивы robots.txt

User-agent

Указывает, какому роботу предназначены правила.

User-agent: *

* — значит, правила применяются ко всем роботам. Можно задавать настройки отдельно:

User-agent: Yandex

Disallow: /search/

Allow / Disallow

Управляют доступом к разделам сайта.

Разрешить:

Allow: /catalog/

Запретить:

Disallow: /cart/

Disallow: /admin/

Disallow: /login/

Disallow: /search/

Важно: запрещённые страницы не скрываются от пользователей — они просто не индексируются.

Sitemap

Указывает путь к карте сайта.

Sitemap: https://site.ru/sitemap.xml

Без этого поисковики индексируют сайт дольше и менее корректно.

Clean-param (только для Яндекса)

Позволяет удалить параметры из URL, чтобы избежать дублей. Например, UTM-метки:

Clean-param: utm_source&utm_medium&utm_campaign /

Так поисковику не нужно индексировать тысячи вариаций одной страницы.

Host (только Яндекс)

Определяет основное зеркало сайта.

Host: site.ru

Если указано неверно — возможны проблемы с индексацией и выпадение страниц.

Crawl-delay

Задаёт задержку между обходами страниц.

Crawl-delay: 1

Используется, если сайт плохо выдерживает нагрузку. Но слишком большое значение замедлит индексацию.

✔️ Пример корректного robots.txt

User-agent: *

Allow: /

Disallow: /cart/

Disallow: /admin/

Disallow: /login/

Disallow: /search/

Clean-param: utm_source&utm_medium&utm_campaign /

Sitemap: https://site.ru/sitemap.xml

Host: https://site.ru

Такой вариант подходит большинству коммерческих сайтов и интернет-магазинов.

⚠️ Самые распространённые ошибки в robots.txt

❌ 1. Закрыт весь сайт

Самая опасная ошибка:

Disallow: /

После этого поисковики вообще не смогут индексировать страницы.

❌ 2. Отсутствует ссылка на sitemap.xml

Без карты сайта индексация будет медленной и неполной.

❌ 3. Закрыты важные разделы каталога

Иногда по ошибке закрывают:

- категории;

- карточки товаров;

- фильтры;

- постраничную навигацию.

Это приводит к потере трафика.

❌ 4. Закрытие CSS и JS

Раньше это делали, сейчас — категорически нельзя. Без CSS и JS поисковики видят «ломаную» версию страницы, и позиции падают.

❌ 5. Неправильный Host

Часто указывают www.site.ru, хотя основное зеркало — site.ru, или наоборот.

❌ 6. Использование robots.txt для скрытия данных

Robots.txt — публичный файл. Скрывать в нём:

- персональные данные;

- конфиденциальные URL;

- доступы и служебные пути — нельзя.

💡 Рекомендации по настройке robots.txt

- проверяйте файл после обновлений сайта;

- тестируйте директивы в Яндекс.Вебмастер и Google Search Console;

- обязательно подключайте sitemap.xml;

- используйте Clean-param на проектах с большим количеством параметров (магазины, фильтры);

- не закрывайте важные коммерческие страницы;

- проверяйте файл перед запуском сайта — ошибки встречаются даже у крупных проектов.