Добрый день всем читателям нашего канала. Сегодня я хотел бы обратить ваше внимание на поисковик Google и как он индексирует сайты, а точнее на те дубли контента, которые постоянно попадают в индекс, и не имеет значение - закрыты при этом они в robots.txt или нет.
Речь идёт о страницах с replytocom:
Такие страницы образуются из-за оставленных комментариев к записям и чем больше комментариев, тем больше подобных страниц попадают в индекс.
Важный нюанс – такая генерация страниц с replytocom, появляется тогда, когда на сайте используется древовидная система комментирования с возможностью отвечать на комментарии пользователей.
Как определить дубль контента на сайте?
На самом деле всё очень просто, берёте адрес страницы, на которых оставлено несколько комментариев и проверяете её в Google, с помощью специального поискового оператора:
site:https://cospi.ru/pervachok-vypusk-1/
Чаще всего, Google показывает основную страницу и ниже надпись - "Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше". В любом случае, если у вас установлены древовидные комментарии, то дубли страниц с replytocom обязательно будут.
Вот так выглядит url c "replytocom":
https://cospi.ru/pervachok-vypusk-1/?replytocom=309
Устраняем проблему
Как уже известно, директива в роботсе Disallow: /*?* не спасает, хоть и пишет Google, что "Описание веб-страницы недоступно из-за ограничений в файле robots.txt", но тем не менее в индекс её включает.
Значит надо просто удалить возможность генерации таких ссылок, и сделаем это с помощью правки файла coment-template.php, который находиться в корне директории wp-includes.
В этом файле ищем функцию function get_comment_reply_link и удаляем код, который выделен красным на скриншоте:
Мы удалили участок кода, которые создаёт саму ссылку с replytocom и тем самым генерирует дублирующие страницы.
Сейчас ссылка на ответ к комментарию будет иметь вид:
https://cospi.ru/pervachok-vypusk-1#respond
Вместо старого:
https://cospi.ru/pervachok-vypusk-1/?replytocom=87#respond
У новых записей на блоге теперь не будет дублирующих страниц в индексе, но вот что делать со старыми дублями, которые уже "сидят" в индексе? Ведь мы убрали только ссылки, по которым поисковые боты могут попасть на страницу, а сами дубли, физически остались на сайте и Google будет по-прежнему индексировать их.
А выход один: запретить доступ поисковому боту к подобным страницам в панели вебмастера (Сканирование » Параметры URL):
Вот и всё, после этих манипуляций у вас не должны появляться дубли с replytocom. И теперь, количество всех проиндексированных страниц сайта в Google, может сравняется с количеством страниц в Яндексе :)
Поддержите наших авторов! Если вам понравилась данная статья поставьте лайк и подпишитесь на канал!