474 подписчика

Разработчики в отпуске, сайт в коме. Индексация за 40 минут — вот как

8 октября8 окт

4 мин

Оглавление

Правильный sitemap — не рекомендация, а инструкция для робота
Удаление мусора, robots.txt уже не спасает
Canonical — твоя метка, что здесь главное

Если в индексе хлам, органика утекает. А разработчики “на отпуске”? Вот схема, которая реально вытаскивает сайт без кода и волшебства.

Когда ты работаешь с сайтами руками, а не PowerPoint’ом, очень быстро приходит понимание: поисковик — не волшебник. Он не угадывает, что у тебя за важные страницы, и не будет сам искать путь через сортировки и параметры. Все, что ты не подсветил, считается ненужным. А все, что ты забыл закрыть, попадает в индекс. И это съедает ресурс. Crawl budget, видимость, трафик.

Я пришел к этой схеме, когда надо было срочно вытащить несколько клиентских сайтов из индексной задницы. Доступа к серверу не было, разработчики были "на отпуске", но что-то делать надо было срочно. За 40 минут удалось навести порядок. И через пару дней в GSC поползли первые хорошие сигналы. Сейчас покажу, как именно. По делу и с цифрами.

Правильный sitemap — не рекомендация, а инструкция для робота

Sitemap — это карта, и если она рваная или устаревшая, бот просто теряется. Первое, что нужно сделать , разбить карту по тематикам. Не один общий файл, а несколько:

/sitemap-services.xml, /sitemap-blog.xml, /sitemap-images.xml.

Все они объединяются в <sitemapindex> и прописываются в robots.txt. Это критично, иначе робот может и не заглянуть.

Следом — проверка lastmod. Не трогай дату руками, если на странице не было изменений. Google сейчас реально фильтрует такие "псевдо-обновления", и если поймает, просто игнорирует файл.

У меня был сайт, где "обновляли" sitemap каждый день, хотя страницы не менялись. В результате робот перестал доверять файлу. После фикса и возврата к реальным датам, обход вернулся в течение трех дней.

Проверь GSC → Sitemaps: статус всех файлов должен быть “Success”, никаких “Couldn’t fetch” и пустых lastmod. Это база.

Удаление мусора, robots.txt уже не спасает

Мусор в индексе — это хаос и слив ресурса. Очень многие до сих пор пытаются бороться с устаревшими страницами через Disallow. А потом удивляются, почему страницы висят в индексе месяцами.

Все просто. Если робот уже видел страницу, robots.txt больше не работает как фильтр. Нужно отдавать 410 или, если есть замена, делать 301.

Пример: в одном проекте было 800 устаревших товарных карточек. Поставили 410, через неделю в индексе остались 12. Это реальный эффект. До этого с robots они "висели" там 3 месяца.

В другом проекте использовали 301 на релевантные категории, и не только очистили индекс, но и усилили нужные URL. Один из них попал в ТОП-3 через 10 дней.

Canonical — твоя метка, что здесь главное

На сайте часто бывает, что одна и та же страница доступна по разным адресам. Например, каталог может открываться как site.ru/catalog, а может как site.ru/catalog?sort=price или ?page=2. Визуально почти одно и то же, но для Google это разные страницы. И если ты не скажешь, какая из них главная, он решит сам. А чаще всего ошибется.

Вот тут и нужен тег canonical. Он ставится в код и указывает: “Эта страница — дубликат, а вот настоящая — site.ru/catalog.” Все, что с параметрами, будет передавать вес базовой версии. Главное, не накосячить, canonical должен быть один, с полным адресом (https://...), и не вести на саму себя, если это фильтр или пагинация.

На практике. После добавления каноникалов на фильтры и пагинацию, количество дублей у одного из моих клиентов упало с 1100 до 300 за неделю. И это без удаления страниц. Просто Google понял, где главное.

Noindex. Если страница не нужна в поиске, скажи это прямо

Ты удивишься, сколько “пустых” страниц висит в индексе только потому, что кто-то поставил Disallow вместо noindex. А теперь вспомни, robots.txt запрещает доступ, но не убирает из индекса. Для этого нужно вшить <meta name="robots" content="noindex,follow"> прямо в HTML.

Особенно важно закрывать этим способом параметры: ?sort=, ?page=, ?view=, и т.д.

У клиента были 3000 страниц пагинации и сортировок в индексе. После noindex 200 осталось. Остальные ушли в течение 10 дней. Это просто алгоритм.

Внутренние ссылки. Нужно ≤3 кликов до каждой важной страницы

Google до сих пор верит в структуру сайта. Страницы, до которых добраться сложно, обрабатываются хуже. Если твоя "деньги"-страница спрятана где-то на 4 уровне вложенности, считай, ее нет. Поэтому добавляй ссылки из блога, хабов, карточек. Не менее 2–3 на страницу.

У нас в PRAGMATIX был клиент. У него целый раздел услуг был доступен только из футера. Добавили ссылки в тексты статей , и уже через 3 дня в GSC обходы. Через неделю пошел рост видимости. Это дешево, быстро и без кода.

Ошибка, которую я не забуду

В одном проекте мы игнорировали 410. Все “старые” страницы просто убрали из меню и добавили Disallow. Через пару месяцев клиент звонит: "Почему трафик упал, а новые услуги не видны?"

Захожу. 400+ устаревших страниц висят в индексе. А новые на дне. Поставили 410, убрали хлам, через неделю начали возвращаться позиции и трафик.

Мораль: если хочешь, чтобы Google слушал, говори с ним прямо.

Быстрый чек-лист

– Сделай sitemap-индекс по типам + lastmod

– Пропиши 410 и 301, не оставляй мусор

– Настрой canonical на чистые URL

– Пропиши <meta name="robots" content="noindex,follow"> на параметры

– Добавь 2–3 внутренних ссылки на ключевые страницы

❤️ Если узнал свой сайт, правь sitemap.
Пиши нишу, пришлю чек-лист под тебя.
Хочешь вычистить дубль? Напиши ‘мусор’