Найти тему
Эй, Стартапер!

Вопросы об индексации сайта

Индексация сайта роботами поисковых систем – процесс, без которого невозможно SEO продвижение любого web-ресурса, поскольку именно она обеспечивает попадание web-документов в базы поисковиков.

Вопрос №1. Что такое индексация

Веб-индексирование – это процесс добавления сведений о сайте роботом поисковой машины в базу данных с целью полнотекстового поиска информации на присутствующих в индексе web-документах.

По сути, индексация является ничем иным, как сканированием сайта для внесения информации о нем в базу поисковой системы. Только проиндексированные документы могут отображаться в органической поисковой выдаче.

Вопрос №2. Как поисковые роботы узнают о недавно появившихся сайтах и их страницах

Существует два основных пути, чтобы сообщить поисковой системе о новом сайте (или странице в структуре уже существующей площадке), а именно:

· Разместить ссылку на главную страницу сайта на каком-либо стороннем ресурсе. Робот поисковика увидит ее, совершит переход и проиндексирует имеющиеся веб-документы. При этом такие ссылки желательно располагать на страницах «живых» динамических площадок, например, в социальных сетях или СМИ.

· Сообщить поисковой системе о созданном сайте или новой странице с помощью инструментария сервиса для вебмастеров. Это Яндекс.Вебмастер и Google Search Console.

В данном случае стоит отметить, что для быстрой и максимально полной индексации нового сайта желательно использовать два этих метода в комплексе. Кроме того, поисковым машинам стоит сообщить не только о главной, но и внутренних страницах веб-площадки.

Вопрос №3. Что такое файлы для индексации

Наиболее важным для индексации любого сайта является файл robots.txt, располагающийся в его корневом каталоге. Это специальный файл в текстовом формате, содержащий указания поисковым системам о необходимости индексации тех или иных страниц web-ресурсов.

При этом, чтобы поисковая система не игнорировала указания в данном файле, он должен быть составлен соответствующим образом, а именно:

· не превышать размера в 32 кБ;

· иметь именно текстовый формат (.txt);

· включать корректные директивы (на латинице и без использования регистра в наименованиях параметров).

Поисковая система Яндекс поддерживает такие директивы, как:

· User agent (обязательная), ссылающаяся на робота, для которого действую использованные параметры;

· Disallow, предназначающаяся для запрета индексации отдельных документов или разделов в структуре сайта;

· Sitemap, указывающая путь к одноименному файлу, который содержит ссылки на все внутренние страницы ресурса;

· Clean-param, содержащая параметры, который робот не должен учитывать во время индексации;

· Allow, разрешающая индексацию разделов или отдельных страниц сайта.

Что касается ранее необходимой директивы Craw-Delay (задает интервал между загрузками веб-документов), то еще в 2018 году Яндекс официально прекратил ее поддержку.

-2

Настройка robots.txt для Google в целом такая же за исключением того, что этот файл должен быть в кодировке UTF-8 или ASCII. Кроме того, поисковик не дает каких-либо указаний относительно необходимости использования директивы Clean-param.

Вторым важным для индексации сайта файлом является sitemap, который содержит ссылки на все подлежащие индексации страницы в соответствии со структурой ресурса. Именно он обеспечивает максимально полную индексацию. Особо ценен для площадок с большим количеством внутренних страниц третьего и большего уровня вложенности.

Вопрос №4. Как часто роботы обходят сайт

Чем чаще поисковые роботы посещают сайт, тем больше у него конкурентных преимуществ в выдаче. Однако ежедневной индексацией могут похвастаться только самые динамичные площадки, например, СМИ, в структуре которых каждый день появляется большое количество страниц.

При некоторые поисковые системы позволяют получать данные об индексации сайтов. Например, в Яндекс.Вебмастер это можно сделать с помощью инструмента «Статистика обхода» на странице «Индексирование».