Как убрать некачественные страницы с помощью файла robots.txt?

12 октября 202112 окт 2021

2 мин

Думаю, многие уже знают, что алгоритмы поисковых систем сейчас понижают сайты с большим числом некачественных страниц. Связь между падением позиций и ростом некачественных страниц можно увидеть на большом числе сайтов.

Давайте разберёмся, как почистить некачественные страницы сайта с помощью файла robots.txt.

Сразу оговорюсь, что не все типы страниц можно убрать с помощью этого файла. Но очень многие возможно.

А с учетом того, что перезалить файл robots.txt занимает примерно 2 минуты, это один из самых простых способов убрать некачественные страницы.

Итак, самые частые типы страниц, которые можно исключить с помощью файла robots.txt:

1. Страницы каталога с фильтрами.

Обычно такие страницы формируются через GET-параметры в url.

Пример такого URL:

https://домен/каталог/?производитель=Бренд1&Размер=XL

Удалить можно с помощью директив Disallow или Clean-param (последнее предпочтительнее для Яндекса).

2. Страницы добавления товаров в корзину.

Обычно такие страницы имеют вид: https://домен/cart/?add=number

Исключить всю группу адресов можно через запрет индексирования раздела корзины сайта:

Disallow: */cart/?*

3. Страницы пагинации.

Иногда их лучше оставить в поиске, а иногда - удалить (например, когда страниц пагинации слишком много, и на них дублируется контент).

Обычно адрес страниц пагинации бывает двух видов:

Вид 1: https://домен/страница/?page=5

Исключить можно с помощью правил:

Clean-param: page /*

Disallow: */?page=

Вид 2: https://домен/страница/page5

Исключить можно с помощью правила:

Disallow: */page

4. Страницы с метками.

Например, с utm - метками.

Обычно такие страниц имеют вид:

https://домен/страница?utm_source=facebook&utm_medium=cpc&utm_campaign={campaign_id}&utm_term={keyword}

Легко можно исключить можно с помощью директивы Clean-param для Яндекса:

Clean-param: utm_source&utm_medium&utm_campaignt&utm_term /*

Для Google можно воспользоваться директивой Disallow.

5. Страницы-дубли разных городов или автоперевод на другие языки сайта.

Иногда на сайте дублируются страницы, созданные для разных городов. Или существует автоперевод текста низкого качества на другой язык. Такие страницы могут быть некачественными в глазах поисковых систем и их лучше закрыть от индексации.

Чаще всего город или язык создается через подкаталог сайта. Например /spb/, /tomsk/ и прочее.

Если закрыть нужно весь город, проще всего воспользоваться директивой Disallow и закрыть весь раздел.

Если нужно закрыть только часть страниц в выбранном городе, то нужно будет составлять свои правила для каждого раздела.

Не существует какого-то универсального файла robots.txt, который подойдет каждому сайту. И ни в коем случае нельзя копировать этот файл с другого сайта.

В этой подборке нет системных страниц, которые формирует конкретная CMS сайта, так как обычно их исключение в файле robots.txt формируется на автоматическом уровне. Но в любом случае стоит проверять Яндекс.Вебмастер сайта и устранять дубли, если они появились. Скорее всего придется разобраться со всеми директивами этого файла. Или обратиться к профессионалу.

А вот заливать файл robots.txt на сайт лучше научиться самостоятельно, не прибегая к услугам программиста (это не сложно). Так как обнаруживать новые типы страниц к исключению (и, следовательно, обновлять файл) можно достаточно часто.

Подписывайтесь на нашу ленту!

Здесь много полезного контента по современным методам продвижения бизнеса в сети Интернет.