Удаление информации из поиска, оказывается, достаточно сложная задача. Решается в два этапа:
- Удаление страницы из индекса поисковика.
- Предотвращение попадания страницы для обработки поисковиком.
Зачем удалять страницы из индекса Яндекса и Гугла
Ориентируюсь на эти два поисковика, так как они держат весь рынок поисковой информации. Для начала рассмотрим причины удаления информации из поиска.
1. Дублирующая информация. Страницы сайта, которые доступны по разным адресам. Влияет на показатель траста сайта. В идеале информация на сайте должны быть в единственном экземпляере.
2. Конфиденциальные сведения. Тут всё понятно. Это требования законодательства РФ.
3. Устаревшие данные.
4. Изменение посадочных страниц по определенным запросам. Оптимизация сайта.
5. Иные причины..
Кто может повлиять на выдачу страницы в поиске
Изменять выдачу может только сам поисковик. Влиять на поисковик можно и нужно опосредовано владельцу или вебмастеру сайта. Третьи лицам повлиять на поисковую выдачу могут только через суд (с иском к поисковику или владельцу ресурса) или договорившись с владельцем сайта.
Внимание! Стоит помнить о том, что Яндекс и Гугл имеют механизмы автоматического кеширования истории сайта. Так же есть сервисы, где хранится история сайтов. После удаления конфиденциальной информации можно обратиться в эти сервисы с просьбой удалить историю ресурса из кеша. Сам не обращался. Буду признателен, если читатели поделятся опытом подобных обращений.
Удаление страницы из индекса поисковика
Как говорил в начале статьи у нас две задачи: удалить и не допустить повторной индексации. Начнем с удаления.
Сначала необходимо определиться с тем, что мы хотим удалять.
Шоковый метод
Если нам нужно удалить много не нужных страниц и популярность у сайта низкая, то лучший способ - настроить запреты к редактированию (следующий параграф) и на 2 недели закрыть сайт вообще. Способ радикальный. Сайт через 2 недели полностью пропадет из поиска и в Яндексе и в Гугле. После включения будет проиндексирован заново. По совему опыту позиции в ТОП-100 восстанавливаются за 2-3 недели. Позиции в ТОП-10 могут не восстановится (если рассматриваете такой вариант, то скорее всего их и так нет). Зато после такого шока они могут появится.
Удаление по одной странице
Самый эффективный способ. Идем в вебмастер Яндекса / Гугла и вручную указываем адреса страниц, которые нужно удалить. Естественно, Вы сможете указать адреса только подтвержденных Ваших проектов.
Удаление в вабмастере Яндекса
Удаление в вебмастере Гугла
Удаление напрямую самое эффективное и быстро срабатывающее. Обычно страницы убираются из выдачи при следующем обновлении поисковой базы. Поисковая база обновляется каждые 2-3 дня.
Удаление автоматическое
Можно отдать удаление информации на волю поисковиков. Делается это очень просто - удаляем страницу с сайта и убеждаемся что при переходе по её адресу выдается ошибка 404 (страница не существует). После попадания на такую ошибку поискового бота происходит автоматическое выключения страницы из поиска. Так же занимает 2-3 дня после обнаружения. Весь вопрос когда бот наткнется на такую страницу. Боты обходят сайт по кусочкам и с разной периодичностью. Для больших сайтов исчезнувшая страница может быть обнаружена как через день так и через месяц.
Перенаправление на другую страницу
Тоже иногда используется для изменения поисковой выдачи. Указываем редирект на похожую страницу с актуальным содержимым и ждем пока Яндекс и Гугл зайдут и переработают новую структуру сайта. Произойдет подмена информации. Время реакции поисковиков складывается из времени, когда они увидели перенаправление, плюс время на переиндексацию и ранжирование информации. Ориентировочно стоит расчитывать на эффект через месяц.
Закрытие адреса для обработки поисковиками
Теперь, когда мы попросили Яндекс и Гугл удалить страницу из поиска, нам нужно дать указание роботам больше не повторять индексацию таких страниц (если они остались на сайте, но не требуют включения в поиск).
Для этого нужно:
1. Настроить .htaccess (файл в корне сайта). В нем прописываются редиректы
- На главное зеркало. Убираем дубли сайта на уровне домена.
- На акутальные страницы (обычно redirect 301).
Сюда же можно и возврат 404 ошибки встроить вручную. Но лучше, конечно, чтобы сама страница его отдавала автоматом.
2. Дорабатываем robots.txt
Директивами allow / disallow указываем роботам Яндекса и Гугла что нужно включать в поиск, а что нет. Замечено, что Гугл может игнорировать эти отметки.
3. Удаляя страницы убеждаемся, что переход по их адресам вызывают 404 ошибку.
Крайне настоятельно рекомендую проверять не через браузер, а с помощью яндекса вебмастера (выбираем сайт и пункт "проверить URL"). После обработки мы увидим текущий код ответа и статус индексации.
4. Для закрытия от индексации страницы можно использовать мета тег robots (смотри описание тега meta name = "robots")
5. На уровне операционной система сервера. Сам этого не делал. Полагаю смысла нет без острой необходимости лезть в конфигурацию работающего сервера.
Помог материал - поставьте лайк, оставьте комментарий. Это поможет и другим пользователям интернета найти решение аналогичной проблемы.
Если темы интересны - подиписывайтесь на канал!