71 подписчик

Бюджет сканирования: как заставить Google индексировать нужные страницы

30 ноября30 ноя

11 мин

Вы добавили на сайт 500 новых страниц. Прошла неделя, две, месяц — а в индексе Google по-прежнему ноль. Открываете Search Console, видите статус "Обнаружена, но не проиндексирована" и недоумеваете: почему Google игнорирует ваш контент? Проблема часто кроется в бюджете сканирования. Это не абстрактное понятие из учебников по SEO, а вполне конкретное ограничение: сколько страниц Google готов просканировать на вашем сайте за определённый период. И если вы не управляете этим ресурсом, поисковик может месяцами обходить стороной важные разделы, тратя время на технический мусор. Статистика показывает суровую реальность: размер индекса Google составляет около 400 миллиардов документов. При этом в интернете существует на несколько порядков больше страниц. Google физически не может проиндексировать всё — он выбирает. И цель любого оптимизатора — попасть в число избранных. Особенно остро проблема стоит для крупных сайтов. Интернет-магазин на 100 тысяч товаров, новостной портал с ежедневными публи

Оглавление

ТОП-4 сервиса для улучшения поведенческих факторов
Что такое бюджет сканирования и почему он ограничен
Почему Google индексирует всё меньше страниц

Проблема часто кроется в бюджете сканирования. Это не абстрактное понятие из учебников по SEO, а вполне конкретное ограничение: сколько страниц Google готов просканировать на вашем сайте за определённый период. И если вы не управляете этим ресурсом, поисковик может месяцами обходить стороной важные разделы, тратя время на технический мусор.

Статистика показывает суровую реальность: размер индекса Google составляет около 400 миллиардов документов. При этом в интернете существует на несколько порядков больше страниц. Google физически не может проиндексировать всё — он выбирает. И цель любого оптимизатора — попасть в число избранных.

Особенно остро проблема стоит для крупных сайтов. Интернет-магазин на 100 тысяч товаров, новостной портал с ежедневными публикациями, агрегатор с миллионами карточек — все они сталкиваются с тем, что Google сканирует лишь малую часть контента. А значит, остальное просто не участвует в ранжировании.

ТОП-4 сервиса для улучшения поведенческих факторов

Даже правильно настроенный бюджет сканирования не гарантирует высоких позиций, если поведенческие метрики проседают. Эти сервисы помогут усилить позиции проиндексированных страниц:

Seopapa — премиальный веб-сервис с реальными отпечатками браузеров и 7 днями бесплатного тестирования, подходит для профессионалов и агентств
Monstro — самое технически продвинутое Windows-приложение для тех, кто хочет полностью контролировать процесс накрутки и настраивать поведение ботов до мельчайших деталей
DailyPFBot — простой Telegram-бот с оплатой за переход (3 руб/клик), идеально для новичков и владельцев небольших проектов
Умный Сервис — новое решение с ИИ-ботами и видимостью результатов в Яндекс.Метрике, бесплатный тест на 5 дней, от 130 руб/сутки

Что такое бюджет сканирования и почему он ограничен

Бюджет сканирования (Crawl Budget) — это количество страниц, которое Googlebot готов просканировать на вашем сайте за определённый период. Звучит просто, но за этим стоят серьёзные технические ограничения.

Google тратит деньги на каждое сканирование. Дата-центры потребляют гигантские объёмы электроэнергии, серверы обрабатывают петабайты данных, а хранение индекса обходится в миллионы долларов ежегодно. Компания вынуждена жёстко лимитировать ресурсы, которые выделяет каждому сайту.

Формула проста: чем выше авторитетность сайта и чаще обновляется контент, тем больше бюджет. Новый блог на бесплатном домене может рассчитывать на пару десятков просмотров страниц в день. Крупный новостной портал получает сотни тысяч.

Google не обязан индексировать весь интернет. Задача поисковика — проиндексировать достаточно страниц, чтобы удовлетворить пользователей.

Два главных компонента определяют бюджет сканирования:

Crawl Rate Limit — максимальная скорость, с которой Google может сканировать сайт, не перегружая сервер. Если ваш хостинг слабый, поисковик намеренно замедлится, чтобы не положить сайт.

Crawl Demand — насколько Google заинтересован сканировать ваш сайт. Зависит от популярности страниц, частоты обновлений, качества контента.

Почему Google индексирует всё меньше страниц

Вот факт, который многих удивляет: с каждым годом Google индексирует всё меньший процент существующих веб-страниц.

Размер индекса остаётся относительно стабильным на уровне 400 миллиардов документов. Это всего 50-60 Википедий по объёму. При этом интернет растёт экспоненциально — каждый день появляются миллионы новых страниц.

Google вынужден быть избирательным. На судебных слушаниях вице-президент компании по поиску прямо заявил: они целенаправленно уменьшают размер индекса, выкидывая страницы, которые считают бесполезными для пользователей.

Несколько факторов усиливают эту тенденцию:

Размер документов растёт. Средняя веб-страница сейчас весит в разы больше, чем десять лет назад. Больше JavaScript, тяжёлые изображения, видео. Сканировать и обрабатывать такие страницы дороже.

Метаданных становится больше. Google хранит не только саму страницу, но и огромное количество данных о ней: все слова и понятия, расчёты тысяч факторов ранжирования, несколько копий документа для отслеживания изменений.

Электроэнергия дорожает. Содержание дата-центров требует колоссальных затрат. Чем меньше страниц индексировать, тем ниже расходы.

Это создаёт парадокс: чтобы попасть в индекс Google, ваш контент должен быть действительно полезным. Средненькие страницы больше не проходят.

Факторы, которые съедают бюджет сканирования

Разберём конкретные проблемы, из-за которых Google тратит ваш драгоценный бюджет впустую.

Ошибки сервера 5xx

Если сайт регулярно отдаёт ошибки 500, 503 или 429, Googlebot автоматически снижает частоту сканирования. Это защитный механизм — поисковик не хочет добивать и без того проблемный сервер.

Откройте отчёт о сканировании в Search Console. Видите красные всплески ошибок 5xx? Вот вам и утечка бюджета. Пока не устраните проблемы со стабильностью хостинга, можете забыть о нормальной индексации.

На большинстве сайтов присутствуют ошибки 5xx. Это как раковое заболевание — медленно, но верно убивает индексацию.

Цепочки редиректов

Каждый редирект съедает часть бюджета. А цепочки из нескольких редиректов — настоящее расточительство.

Страница A редиректит на B, та на C, а C уже на финальную D. Googlebot проходит всю цепочку, тратя время и ресурсы. При этом часть ссылочного веса теряется на каждом шаге.

Проверьте внутренние ссылки. Если находите адреса, которые вызывают редиректы — замените их на финальные URL. Да, это рутинная работа, но она даёт результат: тесты показывают прирост трафика от 1% до 4% после устранения лишних редиректов.

Дублированный контент

Google не хочет индексировать десять одинаковых страниц. Если у вас проблемы с канонизацией, поисковик тратит бюджет на сканирование дублей вместо уникального контента.

Типичная ошибка: страницы доступны и по HTTP, и по HTTPS. Или с www и без. Или с разными параметрами в URL, но контент один.

Используйте канонические теги правильно. И проверяйте, что Google выбрал именно ту версию страницы, которую вы хотели.

Низкокачественные страницы

Страницы с тонким контентом, автоматически генерируемые разделы, пустые категории — всё это пожирает бюджет сканирования и ничего не даёт взамен.

Если Google регулярно сканирует такие страницы, но не индексирует их, это сигнал: закройте их от индексации или улучшите качество.

Тяжёлые страницы

Google ограничивает размер индексируемого HTML до 15 мегабайт. Если ваша страница тяжелее — поисковик обрежет контент или вообще откажется индексировать.

Это касается именно HTML-кода, а не внешних ресурсов вроде картинок или скриптов. Но всё равно: чем легче страница, тем быстрее сканирование, тем больше страниц Googlebot успеет просмотреть.

Как понять, что проблема именно в бюджете сканирования

Не всегда отсутствие в индексе связано с бюджетом. Иногда это просто низкое качество контента или алгоритмические фильтры.

Вот признаки проблем с бюджетом сканирования:

Статус "Обнаружена, но не проиндексирована" массово применяется к страницам. Зайдите в Search Console → Индексирование → Страницы. Если там тысячи URL с этим статусом — бюджет точно проблема.

Дата последнего сканирования сильно отстаёт. Создали страницу месяц назад, а Google так её и не просканировал? Или сканирует раз в несколько недель вместо ежедневного обхода?

Важные разделы игнорируются. Новые товары не попадают в индекс неделями, статьи блога сканируются выборочно, глубокие страницы вообще не видны поисковику.

Проверить всё это можно через анализ логов сервера. Посмотрите, как часто Googlebot заходит на разные разделы сайта. Если видите перекос — например, бот постоянно сканирует старые архивные страницы, игнорируя свежий контент — пора оптимизировать.

Практические способы оптимизации бюджета

Теперь конкретные действия.

Закройте технический мусор от сканирования

Админские разделы, страницы поиска по сайту, фильтры с параметрами, технические URL — всё это должно быть закрыто в robots.txt или через noindex.

Типичный пример расточительства: Google сканирует тысячи вариантов страниц с GET-параметрами (?color=red, ?sort=price, ?page=2) вместо основного контента.

Используйте директивы Disallow в robots.txt для технических разделов. Но будьте аккуратны: случайно можете заблокировать важные страницы.

Исправьте ошибки в robots.txt

Реальный случай из практики: на сайте был прописан Crawl-delay в robots.txt, затем началась новая секция без Allow/Disallow. Google воспринял это как полную блокировку сайта.

Не используйте Crawl-delay — эта директива устарела лет десять назад. Не оставляйте секции без Allow/Disallow. Прописывайте межсекционные директивы в самом конце файла.

Проверьте robots.txt в Search Console → Настройки → Robots.txt. Google покажет, как он интерпретирует ваш файл.

Настройте правильные канонические теги

Самореферентные канонические теги на каждой странице — обязательное условие. Даже если страница уникальна, пропишите canonical на саму себя.

После обновлений Google бывают ситуации, когда в индекс лезут страницы с параметрами, несмотря на прописанные канонические теги на родительскую страницу. Самореферентный canonical усиливает сигнал.

И проверяйте, что Google не выбрал каноничной чужую страницу. Да, так бывает — если поисковик находит очень похожий контент на другом сайте, он может сделать внешнюю страницу каноничной для вашей.

Улучшите внутреннюю перелинковку

Важные страницы должны быть доступны в 2-3 клика от главной. Чем глубже страница в структуре сайта, тем меньше шансов на регулярное сканирование.

Добавляйте ссылки на новый контент со старых популярных страниц. Это не только помогает распределять ссылочный вес, но и указывает Googlebot на приоритетные разделы.

Следите за скоростью сайта

Медленный сайт = меньше бюджета. Если страницы грузятся по 5-10 секунд, Googlebot просканирует меньше URL за то же время.

Оптимизируйте изображения, включите кэширование, используйте CDN, минимизируйте JavaScript. Базовые вещи, но они реально влияют на количество сканируемых страниц.

Используйте XML-карты разумно

Включайте в sitemap.xml только действительно важные страницы. Не надо пихать туда все подряд, включая страницы с noindex.

Google видит sitemap как список приоритетов. Если там тысячи мусорных URL, это размывает сигнал о том, что действительно важно.

Анализ логов: как понять поведение Googlebot

Логи сервера — самый точный источник информации о том, как Google сканирует ваш сайт.

Соберите логи за неделю-две. Отфильтруйте запросы от Googlebot. Посмотрите на паттерны:

Какие разделы сканируются чаще всего? Если бот тратит время на старые архивы или технические страницы, пора что-то менять.

Как часто обновляются важные страницы? Новые товары должны сканироваться ежедневно, а лучше несколько раз в день. Если это не так — недостаточно бюджета.

Есть ли всплески активности? Бот может массово сканировать какой-то раздел после появления новых ссылок на эти страницы. Это подсказка: стройте внутренние ссылки на важный контент.

Интересное наблюдение из практики: после размещения качественной внешней ссылки на страницу Googlebot начинает активно её пересканировать — десятки раз за день вместо обычных 1-2 визитов. Это показывает, что ссылка заработала, ещё до появления эффекта в ранжировании.

Частые вопросы

Влияет ли бюджет сканирования на небольшие сайты?

Для сайтов до 1000 страниц бюджет обычно не проблема. Google легко справляется с их сканированием. Проблемы начинаются на средних и крупных проектах — от нескольких тысяч URL.

Как быстро Google реагирует на изменения?

Если вы оптимизировали бюджет (убрали дубли, закрыли мусор, исправили ошибки), эффект проявится через 1-2 недели. Именно столько нужно, чтобы Googlebot пересканировал сайт и скорректировал стратегию.

Можно ли увеличить бюджет искусственно?

Прямого способа нет. Но опосредованно помогает: получение качественных внешних ссылок, регулярные обновления контента, рост популярности сайта. Чем выше авторитетность и активность проекта, тем больше Google готов выделить ресурсов.

Стоит ли удалять старые страницы для экономии бюджета?

Если страница не приносит трафик, не имеет внешних ссылок и вряд ли когда-то станет полезной — да, лучше удалить или закрыть от индексации. Но не удаляйте контент просто ради удаления. Сначала проанализируйте, можно ли улучшить страницу.

Как понять, что проблема в качестве, а не в бюджете?

Создайте новую страницу с качественным уникальным контентом. Подайте её на индексацию вручную через Search Console. Если Google проиндексирует за пару минут — проблема в качестве старых страниц. Если откажет или затянет на недели — возможно, дело в бюджете или фильтрах на весь сайт.

Бюджет сканирования — не абстрактная метрика, а реальное ограничение, с которым сталкивается каждый крупный проект. Google не обязан индексировать всё, что вы публикуете. Ваша задача — сделать так, чтобы поисковик тратил ресурсы на действительно важные страницы, а не на технический мусор. Начните с простого: откройте Search Console, найдите раздел "Обнаружена, но не проиндексирована" и проанализируйте, что там накопилось. Скорее всего, половину этих URL можно вообще закрыть от индексации, освободив бюджет для контента, который реально нужен бизнесу.

Google

89,1 тыс интересуются