Найти в Дзене

Robots.txt для мультиязычного сайта: настройка и примеры

Robots.txt — это специальный файл с инструкциями (директивами) для поисковых роботов, расположенный в корне сайта.
Он формирует правила индексации: какие разделы сканировать, а какие пропускать. Этими инструкциями пользуются поисковые системы (Google, Яндекс и другие) для более эффективного обхода контента сайта.
Robots.txt — это не просто технический файл, а стратегический инструмент SEO-управления. С его помощью вы управляете обходом сайта, направляя роботов по нужным ссылкам и оптимизируя индексацию релевантного контента. Для мультиязычного сайта особенно важно не блокировать доступ к папкам других языковых версий и корректно разрешить поисковикам обнаруживать контент на всех языках.
Robots.txt помогает упорядочить индексацию: вы открываете только нужные разделы и закрываете служебные. SEO-контроль индексации Файл robots.txt управляет обходом страниц сайта поисковыми роботами.
Он помогает оптимизировать индексацию и не тратить краулинговый бюджет на служебный или нерелевантный к
Оглавление

Robots.txt — это специальный файл с инструкциями (директивами) для поисковых роботов, расположенный в корне сайта.
Он формирует правила индексации: какие разделы сканировать, а какие пропускать.

Этими инструкциями пользуются поисковые системы (Google, Яндекс и другие) для более эффективного обхода контента сайта.
Robots.txt — это не просто технический файл, а стратегический инструмент SEO-управления.

С его помощью вы управляете обходом сайта, направляя роботов по нужным ссылкам и оптимизируя индексацию релевантного контента.

Для мультиязычного сайта особенно важно не блокировать доступ к папкам других языковых версий и корректно разрешить поисковикам обнаруживать контент на всех языках.
Robots.txt помогает упорядочить индексацию: вы открываете только нужные разделы и закрываете служебные.

Зачем нужен robots.txt

SEO-контроль индексации

Файл robots.txt управляет обходом страниц сайта поисковыми роботами.
Он помогает оптимизировать индексацию и не тратить краулинговый бюджет на служебный или нерелевантный контент.

Что даёт на практике

  • Сокращает сканирование «мусорных» URL и параметров.
  • Фокусирует роботов на страницах, которые должны индексироваться.
  • Упрощает управление служебными разделами и дублями.

Типовые зоны, которые закрывают

/admin/
/bitrix/
/wp-

Обычно это делают директивой Disallow,
чтобы робот не тратил время на лишние разделы.

Эти правила применимы независимо от CMS или движка — WordPress, Joomla, Drupal, Bitrix и другие.
В каждой системе есть особенности: например, Drupal часто содержит готовые правила (включая обработку CSS/JS и блокировку
/includes/),
а типовой robots.txt WordPress обычно минимален.

Важно помнить: каждая директива относится к конкретным URL.
Роботы передвигаются по страницам и выполняют указанные инструкции — вы управляете тем, какие разделы будут просматриваться, а какие — закрыты.

Важно

Robots.txt не гарантирует полного исключения страницы из выдачи.
Если нужно убрать контент из поиска, используйте мета-тег
noindex
или ограничьте доступ (например, паролем).

Основные директивы robots.txt

В файле robots.txt используются простые команды для роботов. Вот основные:

Директива Назначение User-agent: * Обозначает правила для всех поисковых ботов. Используется, если инструкции
должны применяться ко всем поисковым системам одновременно. Disallow: /путь/ Запрещает обход указанных URL. Например,
Disallow: /admin/ закрывает служебные разделы сайта
от индексации. Allow: /путь/ Разрешает индексацию вложенного URL, даже если родительская директория
закрыта директивой Disallow. Sitemap: URL Указывает поисковым системам путь к XML-карте сайта и ускоряет
индексацию всех языковых версий. Clean-param Инструкция для Яндекса и Google игнорировать указанные GET-параметры
(utm, openstat и другие), чтобы избежать дублей страниц. Host Используется только Яндексом для указания основного домена сайта
при наличии зеркал.

Важно: каждую директиву (Disallow, Allow и т.д.) указывают с новой строки. Нельзя писать два пути через запятую или на одной строчке.

Файл robots.txt должен быть текстовым (кодировка UTF-8 или ASCII) и называться именно robots.txt (регистр букв важен). Следите также за размером файла: Google читает не более 500 Кб, а если он превышает 32 Кб, Яндекс может посчитать его пустым.

Как создать и разместить robots.txt

  1. Создайте текстовый файл с именем robots.txt. Не используйте другие расширения или форматы.
  2. Разместите файл в корне сайта: это критично. Например, если сайт на example.com, файл должен лежать по адресу https://example.com/robots.txt . Если у вас несколько доменов или поддоменов, каждый из них должен иметь свой robots.txt (см. FAQ).
  3. Добавьте в файл нужные правила: укажите директивы Disallow/Allow для разделов, которые хотите закрыть или открыть. Не забудьте указать Sitemap: с полным адресом карты сайта. Вы можете редактировать robots.txt через админку или FTP (в большинстве CMS есть встроенный редактор); после редактирования можно скачать файл и проверить его локально (например, wget https://example.com/robots.txt).
  4. Проверьте файл: откройте https://ваш-домен/robots.txt в браузере и убедитесь в HTTP-коде 200. Затем используйте инструменты Google Search Console или Яндекс.Вебмастера для проверки robots.txt. Они покажут, какие URL разрешены, а какие закрыты, и укажут на возможные ошибки.

Настройка robots.txt для многоязычного сайта

Для сайта с несколькими языковыми версиями обычно используют один robots.txt в корне. В нём пропишите правила для каждого языкового раздела. Пример для сайта с английской (/en/), французской (/fr/) и немецкой (/de/) версиями:

User-agent: *

Disallow: /admin/

Allow: /en/

Allow: /fr/

Allow: /de/

Sitemap: https://site.com/sitemap.xml

Такой robots.txt разрешит индексировать нужные каталоги и закроет только служебный /admin/. Важно указывать все языковые карты сайта: в XML-карту включаются URL каждой версии страницы (с помощью ). Так поисковики поймут, какие страницы являются переводами, а какие – отдельными.

Если языковые сайты на разных доменах (пример: example.com и example.by), у каждого домена свой robots.txt. В этом случае рекомендуем использовать директиву Host: (Яндекс) для указания основного домена, чтобы избежать дублирования.

Примеры robots.txt (WordPress, Bitrix, общий)

  • WordPress. На типичном сайте WP в robots.txt часто закрывают админку и системные папки:User-agent: *Disallow: /wp-admin/Disallow: /wp-includes/Disallow: /xmlrpc.phpAllow: /wp-admin/admin-ajax.phpSitemap: https://example.com/sitemap.xmlЭто запрещает роботу обход /wp-admin/ и /wp-includes/, но разрешает AJAX-запросам. Вполне обычно дополнять такими строками, например, Disallow: /tag/ или Disallow: /feed/, если эти разделы не нужны в выдаче.
  • 1С-Битрикс. На сайтах на Bitrix для примера:User-agent: *Disallow: /bitrix/Disallow: /bitrix/admin/Allow: /bitrix/admin/admin-ajax.phpSitemap: https://example.com/bitrix_sitemap.xmlЗдесь закрыты служебные папки /bitrix/ и /bitrix/admin/. В системе Битрикс обычно формируется свой sitemap, поэтому обязательно пропишите корректный путь.
  • Общий шаблон (мультиязычный сайт любого типа):User-agent: *
    Disallow: /cgi-bin/Disallow: /temp/Disallow: /admin/Disallow: /wp-admin/Allow: /public/Allow: /en/
    Allow: /ru/Allow: /de/Sitemap: https://example.com/sitemap_index.xmlВ этом примере закрыты технические папки (/cgi-bin/, /temp/, /admin/) и служебные (/wp-admin/), а открыты публичный раздел /public/ и папки для языков. Дополнительно часто используют Disallow: /search (чтобы не сканировать внутреннюю выдачу сайта) и Disallow: /feed (RSS).Для блокировки страниц с комментариями (например, /comment/reply/ в Drupal) можно добавить правило с шаблоном: Disallow: /*comment/.

Для сайтов с большим количеством медиа (например, фотоальбомы, изображения или PDF-книги) можно добавить Disallow для соответствующих папок. Это предотвратит лишние запросы к этим разделам. Например:

Disallow: /gallery/

Disallow: /photos/

Disallow: /ebooks/

– эти правила закроют каталоги с фотоальбомами, фотографиями и электронными книгами.

Проверка и распространённые ошибки

  • Инструменты проверки: Google Search Console и Яндекс.Вебмастер позволяют протестировать ваш robots.txt. Загрузите файл в разделе «Проверка robots.txt» – система покажет, какие URL доступны, а какие закрыты. Также есть онлайн-тестеры и плагины для SEO-анализаторов.
  • Распространённые ошибки:
    01Неправильное имя файла: допустимо только
    robots.txt в нижнем регистре.
    02Синтаксис: после User-agent: и Disallow:
    требуется двоеточие и пробел. Одна директива — одна строка
    (нельзя писать два пути через запятую или в одной строке).
    03Размер файла: при большом количестве правил
    (файл > 32 Кб) Яндекс может не прочитать часть инструкций.
    04Синтаксис шаблонов: не все поисковики поддерживают специальные символы,
    например * и $.
    05Оптимизация: регулярно проверяйте и сокращайте файл robots.txt.
    Удаляйте устаревшие правила, объединяйте инструкции и при необходимости
    используйте Clean-param (Яндекс) вместо явного закрытия параметров.
    06Обращения к закрытым URL: если в логах видны многократные попытки обхода
    запрещённых разделов (403 / 404), проверьте правила и при необходимости
    скорректируйте пути или шаблоны.

Важно: robots.txt открытый для всех – его могут прочитать любые роботы и пользователи. Не используйте его для сокрытия конфиденциальных данных. Лучше защитите важные разделы паролем. Правило Disallow лишь запрещает обход, но если URL известен, он всё равно может появиться в выдаче (хотя и без описания).