При большом стремлении вывести сайт в топ, показать его как можно большему количеству целевых пользователей существует «прием», когда некоторые страницы веб-ресурса закрывают от индексации.
Прежде чем разбираться с этим вопросом предлагаем вспомнить значение термина «индексация».
Индексация – это процесс, при котором роботы собирают любую необходимую информацию о вашем сайте и вносят ее в базу поисковых систем. Другими словами, это этап «знакомства» поисковой системы с Вашим новым сайтом или новой страницей в нем, для дальнейшего представления вашего сайта в результатах поиска при релевантных запросах пользователей.
В таком случае, если индексация является полезным инструментом, то почему есть необходимость закрывать некоторые страницы от индексации.
Есть несколько причин:
1. Когда Вы тестируете сайт на другом домене при этом имея основной сайт, то необходимо закрыть от индексации тот, на котором проводятся тестовые работы, в противном случае поисковые роботы воспримут оба домена как дубликаты и высока вероятность потерять позиции
2. При создании мобильной версии сайта на другом домене также могут возникнуть дубли страниц, которые будут распознаны поисковыми роботами
3. Внесение изменений в интерфейс, исправление ошибок в дизайне сайта, обновление его юзабилити – это технические работы, на время которых желательно временно скрыть сайт.
Чаще всего скрытие страницы от индексации — это вопрос временного характера: как только вы закончите тестовые, технические работы и будете готовы «выходить на люди», то смело можно индексировать сайт.
Теперь, давайте рассмотрим подробные инструкции как можно закрыть сайт от индексации двумя наиболее известными способами.
Первый способ – при помощи файла robots.txt
Robots.txt – это текстовый файл, который посещается поисковыми роботами в первую очередь, для которых прописываются определенные директивы (указания)
Требования для robots.txt:
- Наименование файла должно быть указано в нижнем регистре;
- Обязательный формат файла .txt
- Не превышает определенного объема (500Кб)
- Нахождение в корне сайта
- Доступность файла по электронному адресу: URL сайта/robots.txt в ответ на который сервер отправит код 200
Какие директивы могут быть прописаны в файле robots.txt?
- User-agent (указывает для каких поисковых роботов предназначены директивы)
- Sitemap (указывает на URL адрес карты сайта)
- Disallow (указывает поисковому роботу о запрете какого-либо действия)
- Allow (указывает о разрешении совершить какое-либо действие)
- Clean-param (вспомогательная директива, которая позволяет Яндексу правильно определить страницу для индексации)
- Crawl-delay (директива, позволяющая поисковому роботу Яндекса задать конкретный промежуток времени, согласно которому определяется время окончания загрузки одной страницы и начала загрузки другой страницы)
Важно помнить, что информация в файле robots.txt имеет более рекомендательный характер и может быть проигнорирована некоторыми поисковыми системами. В результате, некоторые страницы вашего сайта могут попасть под индексацию.
Второй способ – через HTML код
В данном варианте запрет на индексацию страницы можно сделать с помощью метатегов в блоке под наименованием «head» в коде HTML
Могут быть указаны следующие значения атрибуты «content»:
- Index (индексируются все содержимое страницы)
- Noindex (кроме ссылок, весь контент страницы не индексируется)
- Follow (Разрешено индексировать ссылки)
- Nofollow (Индексируется контент, но при этом ссылки недоступны для сканирования)
- All (вся информация страницы подлежит индексации)
Более того, существует такой метатег, как Meta Refresh, при использовании которого Google обычно не индексирует страницы, где он прописан. Однако, специалисты не рекомендует его использовать для этих целей.