3 подписчика

WordPress: Убираем дубли контента с replytocom в Google

29 января 202029 янв 2020

2 мин

Добрый день всем читателям нашего канала. Сегодня я хотел бы обратить ваше внимание на поисковик Google и как он индексирует сайты, а точнее на те дубли контента, которые постоянно попадают в индекс, и не имеет значение - закрыты при этом они в robots.txt или нет. Речь идёт о страницах с replytocom: Такие страницы образуются из-за оставленных комментариев к записям и чем больше комментариев, тем больше подобных страниц попадают в индекс. Важный нюанс – такая генерация страниц с replytocom, появляется тогда, когда на сайте используется древовидная система комментирования с возможностью отвечать на комментарии пользователей. Как определить дубль контента на сайте? На самом деле всё очень просто, берёте адрес страницы, на которых оставлено несколько комментариев и проверяете её в Google, с помощью специального поискового оператора: site:https://cospi.ru/pervachok-vypusk-1/ Чаще всего, Google показывает основную страницу и ниже надпись - "Мы скрыли некоторые результаты, которые очень похож

Оглавление

Как определить дубль контента на сайте?
Устраняем проблему

Речь идёт о страницах с replytocom:

Такие страницы образуются из-за оставленных комментариев к записям и чем больше комментариев, тем больше подобных страниц попадают в индекс.

Важный нюанс – такая генерация страниц с replytocom, появляется тогда, когда на сайте используется древовидная система комментирования с возможностью отвечать на комментарии пользователей.

Как определить дубль контента на сайте?

На самом деле всё очень просто, берёте адрес страницы, на которых оставлено несколько комментариев и проверяете её в Google, с помощью специального поискового оператора:

site:https://cospi.ru/pervachok-vypusk-1/

Чаще всего, Google показывает основную страницу и ниже надпись - "Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше". В любом случае, если у вас установлены древовидные комментарии, то дубли страниц с replytocom обязательно будут.

Вот так выглядит url c "replytocom":

https://cospi.ru/pervachok-vypusk-1/?replytocom=309

Устраняем проблему

Как уже известно, директива в роботсе Disallow: /*?* не спасает, хоть и пишет Google, что "Описание веб-страницы недоступно из-за ограничений в файле robots.txt", но тем не менее в индекс её включает.

Значит надо просто удалить возможность генерации таких ссылок, и сделаем это с помощью правки файла coment-template.php, который находиться в корне директории wp-includes.

В этом файле ищем функцию function get_comment_reply_link и удаляем код, который выделен красным на скриншоте:

Мы удалили участок кода, которые создаёт саму ссылку с replytocom и тем самым генерирует дублирующие страницы.

Сейчас ссылка на ответ к комментарию будет иметь вид:

https://cospi.ru/pervachok-vypusk-1#respond

Вместо старого:

https://cospi.ru/pervachok-vypusk-1/?replytocom=87#respond

У новых записей на блоге теперь не будет дублирующих страниц в индексе, но вот что делать со старыми дублями, которые уже "сидят" в индексе? Ведь мы убрали только ссылки, по которым поисковые боты могут попасть на страницу, а сами дубли, физически остались на сайте и Google будет по-прежнему индексировать их.

А выход один: запретить доступ поисковому боту к подобным страницам в панели вебмастера (Сканирование » Параметры URL):

Вот и всё, после этих манипуляций у вас не должны появляться дубли с replytocom. И теперь, количество всех проиндексированных страниц сайта в Google, может сравняется с количеством страниц в Яндексе :)

Поддержите наших авторов! Если вам понравилась данная статья поставьте лайк и подпишитесь на канал!