15 подписчиков

Управление индексацией бесполезных для пользователей страниц

9 января9 янв

7 мин

Оглавление

Индексация страниц
Страницы с малополезным контентом
Страницы с дублями контента

Индексация страниц

Индексацией называют добавление информации о страницах сайта в базу данных поисковой системы, которую называют «поисковым индексом».

Поисковые системы и владельцы сайтов заинтересованы, чтобы в индексе находились только посадочные страницы (важные страницы с полезным для потенциального покупателя контентом), например, с информацией о выгодах приобретения и преимуществах использования товаров или услуг.

Однако, в индекс с определенным постоянством также попадают страницы без контента, технические страницы, страницы с дублями контента и т.д. Подобные страницы бесполезны для целевых посетителей сайта и их необходимо периодически из индекса удалять.

Страницы с малополезным контентом

Вот основные типы страниц, бесполезных для целевой аудитории:

Страницы с конфиденциальными данными: с платежной информацией, личные кабинеты пользователей и т.д.
Страницы без контента (thin content) типа «Спасибо за покупку» или «Ошибка 404» и т.д.
Технические страницы, например, отвечающие за функционирование админ-панели управления контентом сайта.
Страницы с дублями контента.

Страницы с дублями контента

Существует более двух десятков различных вариантов страниц с дублями контента.

Вот простой пример их появления:

при создании новой страницы система управления контентом сайта (CMS), например, Tilda или WordPress присваивает ей внутренний системный url адрес с цифровым идентификатором. Одновременно веб-мастер, заполняющий страницу контентом, присваивает ей публичный человеко-понятный url.

Если все пустить на самотёк, то через некоторое время с большой вероятностью обе страницы попадут в индекс:

Почему очень важно начинать оптимизацию сайта с закрытия от индексации страниц с дублями контента.

SEO каннибализация: дубликат конкурирует с основной версией страницы за ТОП поисковой выдачи.
Снижение рейтинга ранжирования сайта: поисковые системы наказывают сайты, содержащие многочисленные дубликаты контента.

Почему важно контролировать индексацию

Краулер (поисковый бот) периодически посещает сайт, регистрирует изменения контента и обновляет свой индекс, причем время его нахождения на сайте ограничено.

Если SEO специалист не заблокировал бесполезные для пользователей страницы, возникают следующие проблемы:

Нерациональное расходование бюджета: робот будет бесполезно тратить выделенный лимит времени на анализ мусорных страниц.
Размывание поисковых сигналов: страницы с дублями контента сбивают с толку краулер, ищущий контент посадочной страницы.
Увеличение нагрузки на сервер: на больших сайтах слишком большое количество бесполезных для пользователей страниц, просматриваемых краулерами, может замедлить работу сайта, что негативно скажется на его дальнейшем ранжировании.

Выявление бесполезных для пользователей страниц в индексе

Для их поиска используют два бесплатных инструмента:

Google Search Console: раздел «Проиндексированные страницы».
Яндекс Вебмастер.

Как управлять индексацией ненужных в поиске страниц

SEO-эксперты используют следующие методы:

1. Запретить краулеру сканировать и индексировать страницы

через файл robots.txt
через ограничение доступа на страницу (пароль)

2. Разрешить краулеру сканировать страницу, но заблокировать ее индексацию

через метатег noindex

3. Склеить страницу -дубль с ее основной версией

с помощью тега rel=canonical
с помощью 301 редиректа
с помощью директивы clean-param (для Яндекса).

После проведения этих работ в течение полугода ненужные в поиске страницы обычно удаляются из индекса.

Инструменты для управления индексацией

Для каждого типа бесполезных для пользователей страниц существует свой оптимальный метод блокировки.

Пароль на страницу

Непубличные страницы с конфиденциальными данными лучше всего закрывать паролем.

robots.txt

Чтобы запретить краулерам посещать, например, технические разделы сайта со служебными страницами, файлами и папками, используют инструмент robots.txt.

Robots.txt представляет собой текстовый файл, расположенный в корневой директории сайта с комбинациями запрещающих и разрешающих директив.

В нижеследующем примере показана совместная работа двух директив, указывающих краулеру не посещать системный раздел “wp-admin” сайта за исключением страницы “admin-ajax.php”. (Раздел “wp-admin” отвечает за функционирование админ-панели управления контентом сайта):

Внимание: В заблокированных от сканирования технических разделах сайта обязательно открывайте краулеру доступ к файлам js и css, которые необходимы для рендеринга страниц.

Метатег noindex

Для закрытия от индексации страницы без контента в её код вписывают метатег “noindex”.

Вот как это выглядит на примере:

Убедитесь, что страница с метатегом noindex не заблокирована в файле robots.txt, иначе краулер не сможет прочитать эту директиву.

Преимущество этого метода заключается в «гибкости» контроля за индексацией каждой отдельной страницы.

rel=canonical

Для управления индексацией страниц с дублями контента используют более «изощренные» приемы.

Появившись в поисковой выдаче, страница с дублем контента также, как и посадочная страница с основной версией контента со временем соберут положительные поисковые сигналы, влияющие на рейтинг сайта (если контент качественный).

Поисковые сигналы — это факторы, которые поисковые системы используют для определения релевантности и качества веб-страниц по отношению к запросам пользователей.

К внешним поисковым сигналам относятся, например, отношение показов страницы к кликам по ее url (CTR); обратные ссылки (ссылочный вес); последний клик (полнота контента) и т.д.

При работе с дублями контента цель не в том, чтобы удалить их из индекса, а в том, чтобы, во-первых, подклеить их сигналы к сигналам посадочных страниц, во-вторых, перевести дубли контента в разряд «неосновная версия страницы».

Для решения этой задачи используют атрибут rel=canonical тега <link> в коде страниц.

Пример:

Итак, rel=canonical, расположенный в коде страницы с дублем контента, указывает, где находится посадочная страница с основной версией контента.

301 редирект

Этот прием можно использовать для управления индексацией, например, страниц c частично-дублированным контентом (near duplicat content).

Предположим, что на сайте есть две страницы из индекса, контент которых частично дублируется:

URL1 с устаревшей инструкцией для Айфон 1 (https://site.com/apple/iphone1-guide);
URL2 с инструкцией для Айфон 16 (https://site.com/apple/iphone16-guide).

На первый взгляд логично было бы просто физически удалить с сайта страницу с устаревшим контентом.

Однако в этом случае возникают проблемы с SEO:

обратные ссылки на удаленную страницу становятся для краулера битыми;
накопленные прежде положительные поисковые сигналы удаленной страницы без пользы «утекут» с сайта в никуда.

Чтобы этого избежать мы применяем 301 редирект.

Преимущества метода:

Во-первых, 301 редирект сообщает краулерам, что страница с частичным дублем контента (URL1) была перенаправлена на страницу с актуальным контентом (URL2), т.е. проблем с дублями контента больше не существует.
Во-вторых, 301 редирект позволяет автоматически перенаправлять пользователя на актуальную версию страницы без посещения страницы с устаревшим контентом, что удобно.

Существуют несколько вариантов настроить 301 редирект. Один из них- это внести в файл .htaccess сайта следующую запись:

Владельцы сайтов часто задают следующий вопрос: «Зачем применять 301 редирект и затем удалять страницу с частичным дублем контента, если вместо этого можно обновить ее контент до актуального?»

Ответ: «А как быть с неактуальным названием товара/услуги, прописанным в url обновленной страницы? URL не изменить, также как не изменить почтовый адрес вашей квартиры. »

Директива clean-param

Yandex разработал интересный инструмент для управления действиями своих краулеров, связанных с индексацией страниц c частично-дублированным контентом (near duplicat content), который называется Clean-param.

Этот инструмент (директива) особенно удобен для групповой блокировки от индексации страниц-частичных дублей, URL которых содержат GET-параметры.

Что такое URL с GET-параметрами разберем на примере:

Пользователь использовал фасетный фильтр сайдбара для группировки товаров по определенным характеристикам. В ответ CMS сайта сгенерировала соответствующую страницу, URL которой содержит GET-параметры.

Теперь нам нужно заблокировать индексацию группы URL с GET-параметрами:

Для этого в файле robots.txt прописываем директиву Clean-param:

Алгоритм работы этой директивы для Яндекс- краулера следующий: «Если URL страницы содержит параметры «yprqee» и/или «device», то игнорировать их и переключиться обратно на версию основной страницы».

Заключение

Закрывайте непубличные и личные страницы с помощью авторизации соединения.

Блокируйте группы технических страниц с помощью директив файла robots.txt.

Блокируйте страницы без контента с помощью метатегов noindex robots.

Склеивайте дублированный контент с его основной версией, применяя атрибут rel=canonical.

Склеивайте частично дублированный контент с его основной версией, применяя 301 редирект (Clean-param в случае SEO под Яндекс).

Анатолий Снежко, SEO специалист, маркетолог, https://anatole-seo.ru/