186 подписчиков

robots.txt: как настроить и не закрыть сайт от поиска

ВчераВчера

7 мин

Один файл в корне сайта решает, какие страницы попадут в поиск, а какие нет. Настроишь правильно - роботы Яндекса и Google не тратят время на мусорные страницы и быстрее находят нужные. Ошибёшься в одной строке - и весь сайт выпадает из выдачи, а владелец месяцами не понимает, почему трафика нет. Разберём по-человечески: что это за файл, как он устроен, как написать рабочий robots.txt и какие ошибки в нём встречаются чаще всего. robots.txt один файл в корне сайта 3 строки минимум, чтобы файл работал 2 минуты проверить, не закрыт ли сайт robots.txt - это инструкция для поисковых роботов. Лежит в корне сайта и открывается по адресу вашсайт.ру/robots.txt. Любой может его посмотреть, это нормально. Когда робот Яндекса или Google заходит на сайт, он первым делом читает этот файл. В нём написано, по каким разделам ходить можно, а по каким не стоит. Например, незачем индексировать корзину, страницу оплаты или результаты внутреннего поиска - это служебные страницы, в выдаче им делать нечего. Л

Оглавление

robots.txt: как настроить и не закрыть сайт от поиска
Коротко о главном
Что такое robots.txt простыми словами

robots.txt: как настроить и не закрыть сайт от поиска

Разберём по-человечески: что это за файл, как он устроен, как написать рабочий robots.txt и какие ошибки в нём встречаются чаще всего.

Коротко о главном

robots.txt - текстовый файл в корне сайта, управляет обходом страниц роботами.
Минимум рабочего файла: User-agent, Disallow для служебного, Sitemap.
Что не запрещено - то разрешено. Открытые страницы перечислять не нужно.
Главная беда - забытая строка Disallow: /, которая закрывает весь сайт.
robots.txt не прячет страницу из выдачи. Для этого нужен noindex.
Проверить файл - 2 минуты: откройте вашсайт.ру/robots.txt и поищите Disallow.

robots.txt один файл в корне сайта

3 строки минимум, чтобы файл работал

2 минуты проверить, не закрыт ли сайт

Что такое robots.txt простыми словами

robots.txt - это инструкция для поисковых роботов. Лежит в корне сайта и открывается по адресу вашсайт.ру/robots.txt. Любой может его посмотреть, это нормально.

Когда робот Яндекса или Google заходит на сайт, он первым делом читает этот файл. В нём написано, по каким разделам ходить можно, а по каким не стоит. Например, незачем индексировать корзину, страницу оплаты или результаты внутреннего поиска - это служебные страницы, в выдаче им делать нечего.

Логика по умолчанию простая: что явно не запрещено, то разрешено. Если файла нет вообще или в нём нет запретов, робот обходит весь сайт. Поэтому robots.txt нужен не чтобы «открыть» сайт, а чтобы аккуратно закрыть лишнее и подсказать роботу, где лежит карта сайта.

Как устроен файл: основные директивы

robots.txt состоит из блоков. Каждый блок начинается со строки User-agent - это имя робота, к которому относятся правила. Дальше идут разрешения и запреты.

User-agent - кому адресованы правила. * означает «всем роботам». Можно указать конкретного: YandexBot, Googlebot.
Disallow - что обходить нельзя. Disallow: /admin/ закрывает раздел, Disallow: / закрывает весь сайт.
Allow - что обходить можно. Нужна, чтобы открыть исключение внутри закрытого раздела.
Sitemap - ссылка на карту сайта. Показывает роботу полный список страниц.
Clean-param - только для Яндекса. Помогает не плодить дубли из-за меток в адресе (utm, sort и подобных).

Пути в Disallow и Allow пишутся от корня сайта. Регистр важен: /Catalog/ и /catalog/ для робота разные адреса.

Рабочий пример robots.txt

Базовый файл для обычного сайта выглядит так:

User-agent: *Disallow: /admin/Disallow: /cart/Disallow: /search/Disallow: /*?utm_Sitemap: https://вашсайт.ру/sitemap.xml

Что здесь происходит. Правила действуют для всех роботов. Закрыты админка, корзина и внутренний поиск - страницы, которые в выдаче не нужны. Строка Disallow: /*?utm_ отсекает адреса с рекламными метками, чтобы они не плодили дубли. В конце - ссылка на карту сайта.

Этого достаточно большинству сайтов-визиток и небольших каталогов. Не нужно закрывать всё подряд «на всякий случай»: чем меньше запретов, тем меньше шансов случайно спрятать нужное.

Не уверены, что у вас в robots.txt: прогоните сайт через бесплатный аудит видимости. Среди проверок - есть ли файл, не закрывает ли он сайт целиком и указана ли карта сайта. Оценка за пару минут, без регистрации.

Как закрыть сайт или страницу от индексации

Здесь живёт самое частое заблуждение, поэтому разберём отдельно.

Чтобы закрыть весь сайт от роботов, ставят так:

User-agent: *Disallow: /

Эту заглушку обычно вешают на время разработки, чтобы черновик не попал в поиск. Но robots.txt только просит робота не обходить страницу. Он не убирает её из выдачи. Если на закрытую страницу ведут внешние ссылки, она всё равно может всплыть в результатах - без описания, но всплыть.

Поэтому правило такое: чтобы страница гарантированно не попала в поиск, нужен мета-тег noindex на самой странице, а не Disallow в robots.txt. noindex разрешает роботу зайти и прямо говорит «не показывай меня в выдаче». Подробнее, почему сайт может не индексироваться, разбирали в статье почему сайт не виден в поиске.

robots.txt для WordPress, Тильды и Битрикса

Запрос «robots txt для wordpress» ищут часто, поэтому коротко про популярные системы.

WordPress отдаёт виртуальный robots.txt сам. Его стоит дополнить: добавить Sitemap и закрыть /wp-admin/ (кроме /wp-admin/admin-ajax.php). Делают это плагином или физическим файлом в корне.
Тильда настраивает robots.txt в параметрах проекта. Карта сайта подключается там же, отдельный файл руками заводить не нужно.
Битрикс генерирует robots.txt в админке (Маркетинг → Поисковая оптимизация). Стандартный набор уже неплохой, но карту сайта и лишние GET-параметры стоит проверить.

Общий принцип для любой CMS один: не закрывайте файлы оформления (CSS и скрипты). Если робот их не видит, он не понимает, как выглядит страница, и хуже её оценивает.

Частые ошибки

Забытая заглушка Disallow: /. Сайт ушёл в прод закрытым для всех. Самая дорогая ошибка - проверяйте robots.txt сразу после запуска.

Нет ссылки на карту сайта. Без Sitemap робот находит новые страницы медленнее. Карта - это прямой список, его стоит указать.

Закрыты CSS и скрипты. Робот не видит вёрстку и считает сайт сломанным или неудобным для мобильных. Оформление закрывать не нужно.

Запрет нужных разделов. Иногда под Disallow случайно попадает каталог или блог. Перечитайте каждую строку: что именно она закрывает.

robots.txt вместо noindex. Пытаются спрятать страницу Disallow, а она всё равно в выдаче. Для скрытия - noindex.

Как проверить robots.txt

Три способа, от простого к надёжному.

Глазами. Откройте вашсайт.ру/robots.txt в браузере. Найдите все Disallow. Особенно ищите Disallow: / под User-agent: * - это закрытый сайт.

В Яндекс Вебмастере. Раздел Инструменты → Анализ robots.txt. Можно ввести адрес страницы и увидеть, разрешена она к обходу или нет.

Через аудит. Прогоните сайт через бесплатную проверку видимости: она сама скажет, есть ли robots.txt, не закрывает ли он сайт целиком, указана ли карта сайта - и проверит ещё три десятка сигналов поиска и нейросетей.

Что дальше

robots.txt - это база технического SEO, но только база. Файл в порядке, а сайт всё равно не растёт в выдаче - значит, дело в других сигналах: скорость, структура, тексты под запросы, дубли. Полную картину показывает бесплатный аудит на 30 показателей, а с нуля технику и смысл мы собираем в рамках SEO-продвижения.

Если нужен не точечный фикс, а разбор всего сайта с приоритетами и планом - это полный аудит сайта: техника, страницы, семантика и конкуренты, отчёт-документ и созвон по итогам.

Отдельная история - доступ для нейросетей. Тем же файлом управляют и AI-роботы: GPTBot, ClaudeBot и другие. Как не закрыться от них по ошибке, разобрали в статье как открыть сайт для нейросетей.

Частые вопросы про robots.txt

Что такое robots.txt простыми словами?

Текстовый файл в корне сайта, который говорит роботам, какие страницы обходить можно, а какие нет. Лежит по адресу вашсайт.ру/robots.txt. Нет файла или запретов - роботы ходят по всему сайту.

Как настроить robots.txt для сайта?

Минимум: строка User-agent: * для всех роботов, под ней Disallow для служебных разделов (корзина, админка, поиск) и строка Sitemap со ссылкой на карту сайта. Открытые страницы перечислять не нужно.

Как закрыть сайт или страницу от индексации?

Disallow: / под User-agent: * закрывает весь сайт. Но robots.txt только просит не обходить страницу, а не убирает её из выдачи. Чтобы страница точно не попала в поиск, нужен мета-тег noindex.

Где лежит robots.txt и как его проверить?

В корне сайта, открывается по адресу вашсайт.ру/robots.txt. Проверить можно в Яндекс Вебмастере (Анализ robots.txt) или через бесплатный аудит - он скажет, не закрыт ли сайт случайно.

Нужен ли robots.txt для WordPress или Тильды?

Да. WordPress отдаёт виртуальный robots.txt, но его стоит дополнить картой сайта и закрыть служебные разделы. На Тильде файл настраивается в параметрах проекта.

В чём разница robots.txt и noindex?

robots.txt управляет обходом - просит не заходить. noindex управляет индексацией - разрешает зайти, но запрещает показывать в выдаче. Для гарантированного скрытия страницы нужен noindex.

Telegram-канал: @digitalimpulschannel. Раз в неделю короткие разборы новостей ИИ, автоматизации, веб-дизайна и GEO.

Источники

Яндекс: использование robots.txt
Google: введение в robots.txt
Наш разбор: как открыть сайт для нейросетей
Наш разбор: почему сайт не виден в поиске

Гаджеты и электроника

5,73 млн интересуются