Найти тему
RuWeb

Robots.txt — что это и зачем нужен этот файл

Оглавление

Когда пользователи обращаются к поисковой системе с запросом, она ищет ответ в базе данных, собранной поисковыми роботами. База состоит из файлов, полученных краулерами в процессе сканирования веб-страниц, другими словами — при индексации сайта. Однако данные некоторых веб-страниц не должны быть общедоступными, например, нельзя допускать индексирования административной части сайта. Чтобы избежать этого, вебмастеру необходимо создать запрет на сканирование отдельных URL-адресов. Поисковые роботы получают рекомендации по «прохождению» веб-ресурса из robots.txt. В статье рассказываем о данном файле и его значении.

Что такое файл robots.txt

Robots.txt — текстовый файл, который содержит указания для поисковых роботов о том, какие веб-страницы должны быть исключены из очереди на сканирование, а какие являются приоритетными для этого процесса. Правила сканирования файлов называются разрешающими/запрещающими директивами. Указания для поисковых роботов носят характер рекомендаций, а не команд. Значит, краулер может проигнорировать записи в robots.txt, поэтому так важно правильно их создавать.

Для чего нужен robots.txt

Разберем работу запрещающей директивы на примере интернет-магазина. Без особых инструкций поисковые роботы сканируют каждую веб-страницу, в том числе страницы, на которых проходит оплата товара/услуги. Чтобы защитить попадание личных данных пользователей сайта в поисковый индекс, вебмастер запрещает поисковым системам сканировать страницу с онлайн-оплатой при помощи файла Robots.txt.

Если вы хотите ускорить появление нового сайта в базе данных поисковых систем, вам нужно создать разрешающую директиву — направление роботов на сканирование веб-ресурса или одного из его разделов.
Подписывайтесь на канал RuWeb в Яндекс.Дзен и читайте новые статьи о хостинге каждую неделю! Изображение от Freepik.
Подписывайтесь на канал RuWeb в Яндекс.Дзен и читайте новые статьи о хостинге каждую неделю! Изображение от Freepik.

Основные директивы в robots.txt

Директивы являются инструкциями по индексации сайта. Они определяют что именно нужно сделать с веб-страницей или целым сайтом.

User-agent

Сайт может продвигаться в разных поисковых системах. Если нужно создать указания для робота конкретного поисковика, используют User-agent. Это основная директива, которая определяет, какому роботу предназначена инструкция по сканированию: Googlebot, Yandex или другому.

Disallow

Увидев эту директиву, поисковый робот не будет индексировать веб-ресурс целиком или какую-то его часть. Команда: «Disallow: /» — запрет на сканирование всего сайта. Если после косой черты есть уточнение, например «Disallow: /wp-admin», краулер обойдет стороной системную папку CMS WordPress.

Sitemap

Sitemap сообщает краулеру путь к карте сайта — файлу sitemap.xml, содержащему актуальную информацию о структуре веб-ресурса.

Clean-param

Директива, которой следуют роботы Яндекса, чтобы исключить из индексирования нескольких страниц с одинаковым контентом — дубликатов.

Allow

Директива разрешает поисковикам сканировать все элементы сайта, которые в ней указаны. Все остальное находится под запретом.

Заключение

Работа с robots.txt является базовым направлением в SEO. Файл помогает молодым сайтам начать индексироваться в поисковых системах. С ним поисковые роботы не будут сканировать малоценные веб-страницы и будут лучше ранжировать веб-ресурс.

RuWeb — недорогой хостинг для сайтов! Автоматическая установка CMS. Без скрытых платежей. 💻

#хостинг #cms #it-технологии #выборхостинга #бесплатныйхостинг #хостингдлясайта #разработкасайта #vpsсервер