1 подписчик

Создание файла Robots.txt. Роль файла sitemap.xml

18 января 201918 янв 2019

267

4 мин

Основное свойство файла Robots.txt заключается в закрытии от индексации некоторых разделов ресурса.

Файл sitemap.xml содержит всю информацию, которая находится на сайте. Оба этих файл создаются при помощи абсолютно любого текстового редактора. Создать и настроить их не представляет большого труда. Файл Robots.txt имеет определенные директивы Текстовый документ, находящийся в основной директории ресурса, называется Robots.txt. Содержание данного файла включает инструкции для роботов-поисковиков. Основными его возможностями являются: запрет конкретных страниц веб-сайта к индексации, а также указание его главного зеркала. Помимо всего прочего, Robots.txt указывает путь к файлу sitemap.xml. Документ, содержащий всю информацию о сайте, называется sitemap. Главная его функция заключается в упрощении индексации ресурса роботами-поисковиками. Данный файл не является обязательным для тех сайтов, количество страниц которых не превышает пятьдесят. С его помощью роботы-поисковики узнают о местона

Основное свойство файла Robots.txt заключается в закрытии от индексации некоторых разделов ресурса.

Основное свойство файла Robots.txt заключается в закрытии от индексации некоторых разделов ресурса.

Текстовый документ, находящийся в основной директории ресурса, называется Robots.txt. Содержание данного файла включает инструкции для роботов-поисковиков. Основными его возможностями являются: запрет конкретных страниц веб-сайта к индексации, а также указание его главного зеркала. Помимо всего прочего, Robots.txt указывает путь к файлу sitemap.xml.

Документ, содержащий всю информацию о сайте, называется sitemap. Главная его функция заключается в упрощении индексации ресурса роботами-поисковиками. Данный файл не является обязательным для тех сайтов, количество страниц которых не превышает пятьдесят. С его помощью роботы-поисковики узнают о местонахождении страниц, периодичности их обновления, а также о приоритетах в индексации. Как указано выше, можно указать путь к sitemap.xml, и тем самым, обозначить его наличие, с помощью файла Robots.txt. Создание данного документа не требует каких-либо особых усилий, достаточно воспользоваться любым текстовым редактором (к примеру, блокнотом). Также можно использовать специальные сервисы (к примеру, htmlweb.ru). Формат данного файла должен быть только XML. Для создания sitemap.xml, в первую очередь, требуется вписать адрес ресурса в строку URL, выбрать подходящий формат файла, обозначить приоритет индексации страниц веб-сайта, поставить периодичность их обновления и определить иные параметры, которые необходимы. После проведения данной процедуры нужно нажать «Выполнить». Через определенный промежуток времени в окне ниже появится код для созданного файла. Остается всего лишь его скопировать, поместить в sitemap.xml и прописать путь к нему в файле Robots.txt.

Главным преимуществом файла Robots.txt является возможность закрытия от индексации некоторых страниц ресурса. В случае, если такие страницы открыты, поисковая система постарается самостоятельно их закрыть. Однако может произойти и казус, который заключается в случайном закрытии поисковой системой нужных страниц.

Создание файла Robots.txt не представляется никакого труда. Для этого нужно воспользоваться каким-либо текстовым редактором, после чего полученный документ поместить в корневую папку ресурса. Первый шаг поисковой системы перед заходом на сайт – проверка Robots.txt.

Настройка Robots.txt

Для того, чтобы настроить данный файл, нужно использовать его две главные директивы, которые называются Disallow и User-agent. Вторая директива определит поискового робота, который будет запрещать к индексации обозначенные страницы ресурса. Данные запреты находятся в первой директиве. Простым примером может послужить запрет к индексации совершенно всех страниц веб-сайта: User-agent:* Disallow:/. После Disallow можно прописать путь к какому-либо каталогу или файлу, вследствие чего робот поисковик перестанет их индексировать. Важно помнить: категорически запрещено в одной строчке писать несколько путей. В противном случае она просто не будет работать. Можно открыть какую-либо директорию, воспользовавшись командой Allow.

А сейчас рассмотрим дополнительные директивы, используемые файлом Robots.txt

Host – применяется только лишь в случае наличия нескольких зеркал ресурса. Данная директива определяет основное зеркало, которое и будет показано пользователям в результатах поисковой выдачи.

Sitemap – команда, помогающая роботу-поисковику определить местонахождения файла, содержащего карту веб-сайта.

Crawl-delay – применяется с целью совершения паузы между загрузкой страниц ресурса. Данная директива является полезной в случае наличия на сайте множества страниц. Пример применения: Crawl-delay: 7 – пауза будет составлять семь секунд.

Request-rate – используется для обозначения периодичности загрузки страниц роботом-поисковиком. Пример применения: Request-rate: 1/7 – загрузка одной страницы происходит за семь секунд.

Visit-time – заключается в определении промежутка времени, когда робот имеет возможность загружать страницы. Нужно помнить, что время должно выставляться по Гринвичу. Пример применения: Visit-time: 0200-0400.

Необходимо грамотно и внимательно отнестись к настройке файла Robots.txt. В противном случае все конфиденциальные данные, находящиеся на ресурсе (информация о посетителях, покупателях и прочее), могут стать открытыми для всех пользователей. Кроме того, полезные и нужные страницы сайта могут оказаться закрытыми.

Для избегания неприятных ситуаций, описанных выше, необходимо проверить настройки Robots.txt при помощи Яндекс.Вебмастера (сервис – «Анализ Robots.txt). От Вас требуется всего лишь вписать в строку имя домена, после чего станут видны совершенно все недоработки и ошибки.