461 подписчик

Технические факторы SEO ранжирования: часть вторая

24 апреля 202024 апр 2020

2254

2 мин

Оглавление

Первая часть статьи.
Управление файлом robots.txt

Первая часть статьи.

Не хотите разбираться во всей этой хрене, обращайтесь к нам и получите бесплатный тест нашей системы!

Управление файлом robots.txt

Файл robots.txt содержит набор директив, позволяющих управлять индексацией сайта. Он позволяет указывать поисковым системам, какие каталоги, страницы сайта или файлы должны присутствовать в поиске, а какие — нет.

Вот основные правила использования этого файла.

Это текстовый файл в простом текстовом формате. Файл должен быть сохранён в формате plain text в кодировке ASCII или UTF-8 и называться robots.txt.
Файл создаётся в текстовом редакторе (Блокноте) или аналогичных программах (но не в Word или других текстовых редакторах со своим специальным форматом).
Файл robots.txt размещается в корневом каталоге сайта. Чтобы контролировать сканирование всех страниц сайта http://dom-tonirovka.ru , соответствующий файл robots.txt следует разместить по адресу http://dom-tonirovka.ru/robots.txt в корне сайта. Он не должен находиться где-то в подкаталоге (например, по адресу http://dom-tonirovka.ru /pages/robots.txt).
На сайте файл robots.txt должен быть единственным. Если сайт создан с помощью вашей CMS, то он будет генерироваться автоматически. Как например сайт : http://dom-tonirovka.ru/ сделанный на Тильде, там файл robots.txt генерируется автоматически.

В файле robots.txt поисковый робот проверяет наличие записей, начинающихся с поля User-agent. Данная директива определяет робота поисковой системы, к которому относится это конкретное правило индексирования сайта. В описании адресов на сайте можно использовать квантор (wildcard) «*», он подразумевает «любую последовательность символов» и используется для обозначения префикса или суффикса пути до каталога или страницы по сайту (или вообще всего пути). Внутри директивы User-agent возможно использование следующих правил.

Должна быть хотя бы одна директива. В каждом правиле должна быть по крайней мере одна директива Disallow: (Запретить) или Allow: (Разрешить).
Disallow:. Указывает на каталог или страницу в корневом домене, которые нельзя сканировать поисковым роботом, определённым выше. Если это каталог, путь к нему должен заканчиваться слешем. Поддерживается квантор «*» для обозначения префикса/суффикса пути или всего пути.
Allow:. Директива указывает на каталог или страницу в корневом домене, которые нужно сканировать поисковым роботом (с User-agent, определённым выше). Используется также для того, чтобы отменить директиву Disallow: и разрешить сканирование конкретного подкаталога или страницы в закрытом для сканирования каталоге. Если указывается каталог, путь к нему должен заканчиваться слешем. Поддерживается квантор «*» для обозначения префикса/суффикса пути или всего пути.
Sitemap. Необязательная директива, их может быть несколько или совсем не быть. Указывает на расположение карты сайта — файла Sitemap. Можно перечислить несколько файлов Sitemap, каждый на отдельной строке. Более подробно о требованиях к карте сайта Sitemap будет написано в следующем разделе
Неизвестные директивы игнорируются. Это позволяет при необходимости писать комментарии в файле robots.txt.

В зависимости от поисковых систем часть директив могут различаться. Актуальные требования основных поисковых систем к файлу robots.txt можно найти по ссылкам ниже: https://yandex.ru/support/webmaster/controlling-robot/; https://support.google.com/webmasters/answer/6062596?hl=ru.