Когда пользователи обращаются к поисковой системе с запросом, она ищет ответ в базе данных, собранной поисковыми роботами. База состоит из файлов, полученных краулерами в процессе сканирования веб-страниц, другими словами — при индексации сайта. Однако данные некоторых веб-страниц не должны быть общедоступными, например, нельзя допускать индексирования административной части сайта. Чтобы избежать этого, вебмастеру необходимо создать запрет на сканирование отдельных URL-адресов. Поисковые роботы получают рекомендации по «прохождению» веб-ресурса из robots.txt. В статье рассказываем о данном файле и его значении.
Что такое файл robots.txt
Robots.txt — текстовый файл, который содержит указания для поисковых роботов о том, какие веб-страницы должны быть исключены из очереди на сканирование, а какие являются приоритетными для этого процесса. Правила сканирования файлов называются разрешающими/запрещающими директивами. Указания для поисковых роботов носят характер рекомендаций, а не команд. Значит, краулер может проигнорировать записи в robots.txt, поэтому так важно правильно их создавать.
Для чего нужен robots.txt
Разберем работу запрещающей директивы на примере интернет-магазина. Без особых инструкций поисковые роботы сканируют каждую веб-страницу, в том числе страницы, на которых проходит оплата товара/услуги. Чтобы защитить попадание личных данных пользователей сайта в поисковый индекс, вебмастер запрещает поисковым системам сканировать страницу с онлайн-оплатой при помощи файла Robots.txt.
Если вы хотите ускорить появление нового сайта в базе данных поисковых систем, вам нужно создать разрешающую директиву — направление роботов на сканирование веб-ресурса или одного из его разделов.
Основные директивы в robots.txt
Директивы являются инструкциями по индексации сайта. Они определяют что именно нужно сделать с веб-страницей или целым сайтом.
User-agent
Сайт может продвигаться в разных поисковых системах. Если нужно создать указания для робота конкретного поисковика, используют User-agent. Это основная директива, которая определяет, какому роботу предназначена инструкция по сканированию: Googlebot, Yandex или другому.
Disallow
Увидев эту директиву, поисковый робот не будет индексировать веб-ресурс целиком или какую-то его часть. Команда: «Disallow: /» — запрет на сканирование всего сайта. Если после косой черты есть уточнение, например «Disallow: /wp-admin», краулер обойдет стороной системную папку CMS WordPress.
Sitemap
Sitemap сообщает краулеру путь к карте сайта — файлу sitemap.xml, содержащему актуальную информацию о структуре веб-ресурса.
Clean-param
Директива, которой следуют роботы Яндекса, чтобы исключить из индексирования нескольких страниц с одинаковым контентом — дубликатов.
Allow
Директива разрешает поисковикам сканировать все элементы сайта, которые в ней указаны. Все остальное находится под запретом.
Заключение
Работа с robots.txt является базовым направлением в SEO. Файл помогает молодым сайтам начать индексироваться в поисковых системах. С ним поисковые роботы не будут сканировать малоценные веб-страницы и будут лучше ранжировать веб-ресурс.
RuWeb — недорогой хостинг для сайтов! Автоматическая установка CMS. Без скрытых платежей. 💻
#хостинг #cms #it-технологии #выборхостинга #бесплатныйхостинг #хостингдлясайта #разработкасайта #vpsсервер