1624 подписчика

Индексация сайта от А до Я: robots.txt, sitemap, краулинговый бюджет

ВчераВчера

9 мин

Меня зовут Анатолий Кузнецов, и за двадцать с лишним лет в SEO я повидал десятки сайтов, которые умирали не от плохого контента и не от слабых ссылок, а от банальной вещи — их толком не видел поисковый робот. Можно написать сотню гениальных статей, но если страницы не попали в индекс или попали туда мусором, весь труд уходит в пустоту. Сегодня разберу индексацию по-честному, от фундамента до тонких настроек: как устроен robots.txt, зачем нужен sitemap.xml и почему краулинговый бюджет — это не абстракция из учебника, а реальный ресурс, который вы либо тратите с умом, либо сливаете впустую. Я намеренно не буду пересказывать справку Яндекса слово в слово. Вместо этого покажу, как эти три инструмента работают вместе и где чаще всего ошибаются даже опытные вебмастера. Прежде чем лезть в технику, договоримся о базе. Индексация — это процесс, при котором поисковый робот обходит ваши страницы, считывает их содержимое и заносит в свою базу данных. Только после этого страница способна появиться

Оглавление

Что такое индексация и почему без неё нет трафика
robots.txt: первый файл, который читает робот
Базовый синтаксис директив

Я намеренно не буду пересказывать справку Яндекса слово в слово. Вместо этого покажу, как эти три инструмента работают вместе и где чаще всего ошибаются даже опытные вебмастера.

Что такое индексация и почему без неё нет трафика

Прежде чем лезть в технику, договоримся о базе. Индексация — это процесс, при котором поисковый робот обходит ваши страницы, считывает их содержимое и заносит в свою базу данных. Только после этого страница способна появиться в выдаче. Нет страницы в индексе — нет позиций, нет позиций — нет трафика. Всё просто.

Робот не телепат. Он не знает о существовании вашей новой статьи, пока не доберётся до неё по ссылке или не найдёт её в карте сайта. Я подробно разбирал этот механизм в отдельном материале про то, как устроена работа поисковых роботов — рекомендую прочитать, если хотите понять логику обхода изнутри. А общую картину процесса я раскладывал по полочкам в статье об индексации сайта в поисковых системах.

Здесь же сосредоточимся на трёх рычагах управления, которые есть у вебмастера: файл robots.txt, карта sitemap.xml и грамотное расходование краулингового бюджета.

robots.txt: первый файл, который читает робот

Когда робот заходит на сайт, прежде чем тронуть хоть одну страницу, он открывает файл по адресу вашдомен/robots.txt. Это свод правил, который говорит роботу, куда ему можно, а куда нельзя. Файл должен лежать строго в корне сайта и быть доступен по протоколу, на котором работает ресурс.

Базовый синтаксис директив

Структура robots.txt держится на нескольких ключевых директивах. Разберу основные.

User-agent — указывает, к какому роботу относятся правила. Звёздочка означает «для всех роботов». Можно прописать отдельные блоки для Yandex и Googlebot, если нужно дать им разные инструкции.

Disallow — запрещает обход указанного пути. Это самая используемая директива. Например, строка Disallow: /wp-admin/ закрывает от обхода админскую папку WordPress.

Allow — наоборот, разрешает обход. Применяется, когда внутри запрещённой папки нужно открыть конкретный файл или подпапку.

Sitemap — указывает роботу полный путь к вашей карте сайта. Эту директиву можно разместить в любом месте файла, она не привязана к конкретному User-agent.

Clean-param — директива именно для Яндекса, которая помогает не плодить дубли из-за GET-параметров вроде utm-меток или идентификаторов сессий.

Типичные ошибки в robots.txt

За годы аудитов я выделил несколько ошибок, которые встречаются снова и снова. Первая и самая болезненная — случайное закрытие всего сайта строкой Disallow: / на боевом домене. Обычно это наследие со стадии разработки, которое забыли убрать. Сайт месяцами не индексируется, а владелец недоумевает, почему нет трафика.

Вторая ошибка — закрытие через robots.txt страниц, которые уже в индексе, в надежде их оттуда убрать. Это так не работает. Запрет на обход не равен удалению из индекса. Если страница уже проиндексирована, а вы закрыли её в robots.txt, робот просто перестанет её обновлять, но из выдачи она может и не выпасть. Для гарантированного исключения нужен метатег noindex или заголовок X-Robots-Tag, а сама страница при этом должна оставаться доступной для обхода.

Третья ошибка — блокировка CSS и JS файлов. Современные роботы рендерят страницы как браузер. Если вы закрыли стили и скрипты, робот видит сломанную верстку и может занизить оценку качества.

Когда я провожу бесплатный аудит сайта, проверка robots.txt всегда стоит одним из первых пунктов — потому что одна неверная строка способна обнулить весь остальной SEO-труд.

Sitemap.xml: карта, по которой робот находит дорогу

Если robots.txt — это список запретов, то sitemap.xml — это приглашение. Карта сайта представляет собой XML-файл, в котором перечислены все важные адреса вашего ресурса. Робот обращается к ней, чтобы быстро узнать, какие страницы существуют и какие из них обновились.

Я разбирал создание и настройку карты подробно в статье о том, что такое sitemap и как создать карту сайта. Здесь дам выжимку самого важного.

Что должно быть в карте, а чего быть не должно

В sitemap.xml попадают только те страницы, которые вы хотите видеть в индексе: рабочие, отдающие код 200, открытые для индексации, канонические. Звучит очевидно, но на практике карты сайтов часто превращаются в свалку.

Чего в карте быть не должно: страниц с редиректами, битых адресов с ошибкой 404, страниц закрытых в robots.txt или метатегом noindex, неканонических дублей, технических страниц вроде корзины или результатов поиска по сайту. Каждый такой адрес в карте — это сигнал роботу «иди сюда», который тратит ваш краулинговый бюджет на пустоту и подрывает доверие к карте в целом.

Тег lastmod и его реальная польза

Внутри карты для каждого адреса можно указать тег lastmod — дату последнего изменения страницы. Это один из самых недооценённых элементов. Робот использует lastmod, чтобы понять, какие страницы стоит переобойти в первую очередь. Но есть нюанс: дата должна быть честной. Если ваша CMS проставляет текущую дату всем страницам при каждой генерации карты, робот быстро перестаёт ей доверять, потому что видит, что «обновилось всё» каждый день, чего в реальности не происходит. Настройте lastmod так, чтобы он менялся только при фактическом изменении контента.

Кстати, многие технические нюансы карты сайта и других обязательных файлов я затрагивал в материале о том, как принять сайт у разработчика — там есть готовый чек-лист, который убережёт от типичных проблем с индексацией ещё на старте.

Краулинговый бюджет: ресурс, который нельзя тратить впустую

Вот мы и добрались до понятия, которое многие либо не знают, либо понимают неправильно. Краулинговый бюджет — это количество страниц, которое поисковый робот готов обойти на вашем сайте за определённый промежуток времени. Ресурсы роботов не бесконечны, и они распределяют их между миллионами сайтов. Чем крупнее и авторитетнее ваш ресурс, тем больше бюджета он получает.

Кому вообще нужно думать о краулинговом бюджете

Сразу честно: если у вас сайт-визитка на двадцать страниц, переживать о краулинговом бюджете не стоит. Робот обойдёт его целиком за один заход. Тема становится критичной для крупных проектов — интернет-магазинов с тысячами карточек товаров, агрегаторов, новостных порталов, больших каталогов. Когда страниц десятки и сотни тысяч, робот физически не успевает обходить всё, и вот тут начинается борьба за каждую единицу бюджета.

Что съедает краулинговый бюджет

Главный пожиратель бюджета — дубли. Каждая страница, доступная по нескольким адресам, заставляет робота тратить обход на одно и то же содержимое. Источники дублей классические: GET-параметры, сортировки и фильтры в каталогах, версии страниц с слешем и без, отдельные адреса для печати, пагинация без правильной настройки.

Второй пожиратель — цепочки редиректов. Когда робот идёт по ссылке, а та ведёт на редирект, который ведёт на ещё один редирект, каждый шаг стоит бюджета. Третий — мусорные страницы низкого качества, которые попали в обход, но никакой ценности не несут.

Как экономить и направлять бюджет

Стратегия простая по формулировке и трудоёмкая по исполнению. Закройте от обхода всё, что не должно индексироваться: служебные разделы, страницы фильтров, бесконечную пагинацию. Настройте корректные канонические адреса, чтобы дубли схлопывались в одну страницу. Уберите цепочки редиректов, заменив их на прямые ссылки. Подчистите карту сайта, оставив в ней только живые целевые страницы. И выстройте грамотную внутреннюю перелинковку — чем логичнее связаны страницы, тем эффективнее робот распределяет обход по важным разделам.

Именно на стыке этих задач — robots.txt, карты сайта и перелинковки — и решается, попадёт ли ваш контент в индекс быстро и чисто, или будет годами болтаться на задворках обхода. Подобные системные проблемы я регулярно нахожу и устраняю в рамках SEO-продвижения и раскрутки сайта, потому что без здоровой индексации любое продвижение бессмысленно.

Как проверить, что всё работает

Теория без проверки мертва. После настройки обязательно убедитесь, что робот видит сайт так, как вы задумали. Откройте Яндекс Вебмастер и Google Search Console — это ваши главные приборные панели. Там вы увидите, сколько страниц в индексе, сколько исключено и по каким причинам, как робот воспринимает robots.txt и не находит ли он ошибок в карте сайта.

Обращайте внимание на раздел статистики обхода: он показывает, сколько страниц робот скачивает в день и сколько времени тратит. Если видите, что бюджет уходит на технические адреса и дубли вместо ваших товаров и статей, значит, есть над чем работать.

Краткий чек-лист по индексации

Сведу всё сказанное в один практический список, чтобы вы могли пройтись по своему сайту прямо сейчас.

Проверьте, что robots.txt не содержит случайного Disallow: /, открыт для CSS и JS, и в нём указана директива Sitemap. Убедитесь, что sitemap.xml содержит только живые канонические страницы с кодом 200 и честным lastmod. Найдите и устраните дубли через канонические адреса и Clean-param. Уберите цепочки редиректов. Закройте от индексации служебные и мусорные разделы метатегом noindex, а не только robots.txt. Проверьте результат в Яндекс Вебмастере и Google Search Console.

Когда нужен профессиональный взгляд со стороны

Если вы прошлись по чек-листу и поняли, что страницы упорно не лезут в индекс, трафик не растёт, а в Вебмастере висят сотни исключённых адресов с непонятными причинами — это сигнал, что проблема глубже, чем кажется на первый взгляд. Индексация — это фундамент, и трещины в нём не видны, пока не начнёшь копать.

Я помогаю бизнесу решать именно такие задачи. Если вашему сайту не хватает целевого трафика, и вы устали гадать, почему конкуренты в ТОПе, а вы нет — я проведу полную диагностику и возьму продвижение на себя. В рамках SEO-продвижения я не просто «накручиваю позиции», а выстраиваю здоровую техническую базу: чищу индексацию, навожу порядок в robots.txt и карте сайта, оптимизирую краулинговый бюджет, прорабатываю семантику и контент. Результат — стабильный рост органического трафика, который не зависит от рекламного бюджета и не исчезает, как только вы перестаёте платить за клики.

Отдельно стоит сказать про новую реальность. Поиск меняется: всё больше пользователей получают ответы прямо в нейросетях и ИИ-ассистентах, минуя классическую выдачу. Чтобы ваш бизнес упоминался в ответах Алисы, ЯндексGPT, ChatGPT и других генеративных систем, нужна отдельная работа — GEO-продвижение (оптимизация под генеративные движки). Я уже помогаю клиентам адаптировать сайты под этот формат: структурирую контент так, чтобы нейросети брали из него информацию и приводили вас как источник. Это работает на опережение — пока конкуренты борются только за классический ТОП, вы занимаете место там, куда трафик ещё только перетекает.

Хотите, чтобы ваш сайт нормально индексировался, рос в выдаче и попадал в ответы нейросетей? Начните с малого — закажите бесплатный аудит сайта, и я покажу, что именно мешает вашему трафику расти. А если хотите сразу обсудить стратегию продвижения под ваш проект, пишите мне через форму обратной связи — разберём вашу ситуацию предметно и без воды.

#индексациясайта #robotstxt #sitemap #краулинговыйбюджет #crawlbudget #seo #seoпродвижение #поисковыероботы #яндекс #google #вебмастер #технbecКоеseo #продвижениесайтов #geoпродвижение #оптимизациясайта

Маркетинг и продажи

129,1 тыс интересуются