3 подписчика

Robots.txt: где находится, как создать и настроить?

16 сентября 202416 сен 2024

12 мин

Оглавление

Robots.txt – есть ли в нём необходимость?
Robots.txt – где он расположен?
Способы создания файла

Месторасположение текстового файла robots.txt – корневой каталог сайта. Оптимизаторы работают с ним для того, чтобы установить взаимодействие между ресурсом и поисковым роботом. Файл robots содержит инструкции и директивы, которые запрещают или позволяют индексировать некоторые файлы сайта: документы, разделы, папки, страницы.

Индивидуальная и корректная настройка файла для каждого поисковика позволит роботу безошибочно индексировать ресурс, как на компьютерах, так и на мобильных устройствах.

Robots.txt – есть ли в нём необходимость?

Индексирование информации, находящейся в корневой папке сайта и отображающейся на сервере, начинается сразу же, как только сайт становится виден поисковым системам – то есть, с момента его создания.

Файл влияет на позицию сайта в поисковой выдаче, поэтому корректная настройка robots – обязательна. Причина его влияния заключается в том, что в папке находится вся информация сайта – та, которая поисковой системе действительно нужна, но и та, которую она считывает как «мусор» и «не нужная». Большое количество последней, негативно влияет на отношение между сайтом и Яндексом или Google.

Что можно сделать внутри файла robots.txt:

Ввести запрет на индексирование дублирующихся страниц, что сэкономит время краулингового лимита. В этом случае робот будет считывать только важные страницы.
Поработать с изображениями, например, скрыть их в разделе «поиск по картинкам».
Скрыть от робота ненужные скрипты, файлы дизайна, а также некритичные ресурсы.

Robots.txt – где он расположен?

Как уже говорилось, файл роботс расположен в корневой папке сайта. Посмотреть его содержимое не составит труда – в адресной строке браузера укажите ссылку на ваш или интересующий вас сайт, а после знака «/» добавьте robots.txt.

Корневой каталог сайта – это папка, отражающая название сайта, внутри неё находится index.html и файлы движка, на которых он создавался.

Способы создания файла

Ручной способ

Текстовый файл создаётся в любом текстовом редакторе. Помимо распространённых Блокнот и Microsoft Word, можно воспользоваться NotPad. Если не знаете, что писать внутри документа – поищите шаблоны (о них мы поговорим ниже). Создавая файл самостоятельно, помните одно, документ – это инструкция, отражающая важную цель сайта.

Сохраните готовый докуменьт в формате .txt и назовите его «robots», после чего загрузите на сайт.

Инструменты, используемые для загрузки файла на сервер:

Панель управления сервером: Cpanel, ISPmanager.
Консоль, админка в CMS.
FTP-клиент: TotalCommander, FileZilla.

Некоторые движки в административной панели имеют функцию создания файла роботс. Если она отсутствует, то устанавливаются дополнительные модули или плагины.

Онлайн генераторы

Онлайн генераторы подойдут тем, кто не хочет тратить время на создание файла, а также тем, у кого в этом вопросе недостаточно знаний. В интернете множество ресурсов, которые помогут решить проблему, но самый популярных из них – CY-PR.

Если у вас несколько сайтов, то вариант онлайн генераторов – тоже ваш, так как прописать отдельную инструкцию для каждого сайта весьма затратное и непростое занятие. Сгенерировав файл, не забудьте его проверить и отредактировать, для этого потребуется знание синтаксиса и основные правила написания файла.

Готовые шаблоны

В интернете много шаблонов рассчитанных на три известных всем движка: WordPress, Joomla, Drupal. Не стоит сразу загружать их на сайт – редактируйте в зависимости от поставленных целей, иначе он не будет работать корректно.

Шаблон – это лишь набор стандартных директив, построенных на нюансах конкретного движка.

Корректная настройка и её нюансы

То, что будет прописано в файле, зависит от трёх главных параметров:

Какой это сайт: интернет-магазин, блог, портал, промо-сайт, сайт компании, доска объявлений.
Используемая CMS.
Структура и её особенности.

Создание файла лучше доверить опытному оптимизатору, тем более в том случае, когда ресурс выполняет коммерческую цель. Неопытный SEO-специалист может не понять, какие страницы нужно скрыть от индексирования, а какие оставить для отображения в Яндекс или Гугл.

Правила создания и дальнейшего редактирования

Откройте текстовый редактор и создайте документ, отражающий цели вашего ресурса, запишите его как robots.txt.
Поддерживаются два типа кодировки: ASCII и UTF-8.
На сайте должен находится один такой файл.
Для индексирования всех страниц на ресурсе, файл размещают по адресу http.//www.primer.com/robots.txt
Документ разрешается размещать по адресам: субдомена, нестандартные порты.
Готовый документ проверяют на сервисе поисковых систем: Яндекс или Google.
Файл загружается в корневую директорию сайта.

Когда ресурс оптимизируется, файл robots необходимо редактировать. Сделать это можно в текстовом файле, соблюдая правила и синтаксис. После того, как вы обновили файл, загрузите его новую версию на сайт. Для редактирования файла в административной панели, воспользуйтесь специальными плагинами и дополнениями.

Директивы

Disallow и Allow

Директива Disallow – вносит запрет на индексирование указанных разделов сайта поисковому роботу. Здесь укажите:

страницы пагинации;
дублирующиеся страницы;
страницы служебного или технического типа;
страницы с результатами поиска внутри ресурса;
страницы, хранящие личные данные пользователей.

Правила прописывания директивы Disallow:

Перед новой директивой User-agent необходимо использовать пустой перевод строки.
Символ «#» обозначает комментарии, то есть, информация указанная после символа и до следующего перевода строки, не учитывается.

Например:User-agent: ЯндексDisallow: / # блокирует доступ ко всему сайту

Директива Allow – отвечает за разрешение индексации того или иного раздела поисковому роботу. Это бывает необходимо, когда в закрытом разделе нужно открыть доступ к конкретному файлу.

Пример:User-agent: GoogleAllow: /cgi-binDisallow: /# запрещает скачивать все, кроме страниц# начинающихся с '/cgi-bin'

Сортировка директивов User-agent происходит по правилу «от меньшего к большему», на это влияет длина префикса URL. Если для конкретной страницы поисковый робот считывает несколько директив, то он выберет ту, которая появилась последней.

Следите за тем, чтобы между директивами отсутствовал пустой перевод строки.

Специальные символы * и $

Директивы Disallow и Allow позволяют указывать свои пути с помощью символов «*» и «$». Этим они создают постоянные выражения:

* – любая или пустая последовательность символов;
$ – конец строки, а также последний символ.

Директива Sitemap

Sitemap ведёт поисковые системы к XML карте сайта. Для Google и Yandex это имеет большое значение, так как они могут прочитать структуру сайта, отобразить его внутренние ссылки и выявить важные страницы для индексации.

Директива Crawl-delay

Crawl-delay помогает обрабатывать запросы робота, если из-за высокой нагрузки сервер не может отвечать ему самостоятельно. Crawl высчитывает минимальное время, за которое поисковой робот должен обработать и загрузить первую страницу, а потом перейти ко второй.

Поддержка директивы Crawl-delay в Яндексе прекращена. Обход сайта теперь можно посмотреть в Яндекс.Вебмастере, раздел «Статистика обхода».

Директива Clean-param

Директива Clean-param вносит запрет на обход страниц с динамическими параметрами, которые дублируют контент главной страницы. С такой проблемой часто сталкиваются интернет-магазины.

С этой директивой Яндекс не будет отправлять похожие файлы на повторную загрузку – нагрузка на сервер уменьшится, уровень обхода сайта увеличится.

Разберём простой пример, у нас есть три адреса:

primer.com/some_dir/get_jacket.pl?ref=primer_1&jacket_id=123
primer.com/some_dir/get_jacket.pl?ref=primer_2&jacket_id=123
primer.com/some_dir/get_jacket.pl?ref=primer_3&jacket_id=123

Параметр «ref» необходим для отслеживания и показывает нам ресурс, с которого отправлялся запрос – все три адреса будут выдавать одну и ту же страницу с пиджаком jacket_id=123.

Если директива выстроена по следующему шаблону:

User-agent: Yandex

Disallow:

Clean-param: ref /some_dir/get_jacket.pl

Поисковой робот перенаправит все адреса к одному: www.primer.com/some_dir/get_jacket.pl?jacket_id=123

Синтаксис директивы Clean-param

Синтаксис выглядит так: Clean-param: p0[&p1&p2&..&pn] [path]

Под символом «&» перечислены параметры, которые запрещают проводить индексирование. Далее отображается префикс пути страниц, на которые это правило распространено.

Специальных правил, указывающих на то, где разрешается или запрещается размещать межсекционную директиву – нет. Она должна находиться внутри файла robots, но в каком порядке – не имеет значения.

Если в файле несколько директив, каждая из них будет учитываться поисковым роботом. Исключение – момент, когда директивы Disallow и Allow вступают в конфликт. В этом случае поисковой робот выберет Allow.

Директива HOST

В настоящее время поддержка директивы прекращена, но ранее она использовалась для межсекционных инструкций Яндекса. HOST указывала роботу, где находится главное зеркало сайта, при условии, что на сайт можно попасть по нескольким доменам.

Сейчас функции HOST перенесли в Яндекс.Вебмастер в раздел «Переезд сайта».

Что необходимо исключить из индекса

Дублирующие страницы: страница должна иметь уникальный URL – https://primer.com. Исключать подобные страницы следует маской php.
Страницы, на которых находится неуникальный контент.
Страницы для сценариев с определёнными сообщениями.
Страницы с индикаторами сессий.
Файлы движка, указывающие на управление сайтом: шаблоны, административная панель, темы.

Кириллица в файле Robots

Файл должен быть написан на латинице, кириллические буквы и символы запрещены, как в robots, так и в заголовках http. Для преобразования кириллических доменов, используйте сторонние сервисы.

Файл и синтаксис: что необходимо знать

Поисковые роботы выполняют команды, созданные robots.txt, однако каждая система по-своему трактует его синтаксис. Сам файл имеет доступную структуру, поэтому написать его не составит труда, но следует придерживаться следующего списка:

Название должно быть прописано как «robots.txt» – удаляйте заглавные буквы и кириллицу.
Следите, чтобы файл не был размещён в подкаталоге.
Символ «#» используют оптимизаторы, это помогает им оставить комментарий (заметку), почему они закрыли от индексирования определённую страницу.
Файл robots состоит из групп, в которых можно прописать директивы – для каждой отдельная строка.
В группе находится инструкция относительно того, для какого User-agent создана директива и к каким файлам открыт доступ.
Считывание инструкции внутри группы происходит сверху вниз. Для индексации поисковой робот выбирает ту директиву, чей агент пользователя подходит ему больше всего.
Инструкции, необходимые для указания, будут зависеть от регистра.
Количество пробелов не оказывает влияние на инструкции внутри файла, но для комфортного чтения и ориентирования лучше ими не пренебрегать.
Директивы не имеют закрывающих символов – точку можно не ставить.
Пустой перенос строки используется только для User Agent. Если вы пишите новый user-agent и не используете перенос строки, то в дальнейшем он не будет учитываться.
Символ «/» используется для статических страниц и запрещает индексировать определённую папку движка.
Нет необходимости прописывать в роботс.тхт инструкции для каждой отдельной страницы. Указывайте общие директивы, а отдельные инструкции прописывайте лишь в исключительных случаях.

Так как у каждой поисковой системы своя вариация трактовки robots.txt, некоторые пункты можно упустить. Например, если Google считывает User-agent только с прописанной пустой строкой, то для Яндекса это не важно, так как он считывает само слово «user-agent».

Следите за содержанием файла, не указывайте в нём ничего лишнего. Правильный robots.txt – тот, в котором небольшое количество строк отражает весь смысл ресурса.

Как проверить Robots.txt?

Выгружая файл на сервер, потратьте время, чтобы его проверить: убедитесь, что он доступен, корректен и не выдаёт ошибок.

Проверка на сайте

Когда файл окажется на сайте, его можно будет изучить по ссылке primer.com/robots.txt, где primer.com – адрес вашего ресурса. Документ характеризуется как общедоступный, поэтому вы можете посмотреть, как он составлен у вашего конкурента.

Нюансы при проверке в Яндекс и Google

Некоторые оптимизаторы при работе с файлом хотят узнать «почему нельзя указывать общий User-agent для поисковых систем, а необходимо прописывать их отдельно?». Ответ на этот вопрос прост – каждый поисковик намного лучше воспринимает директивы, прописанные исключительно для него:

Google для User-agent: Googlebot;
Яндекс для User-agent: Yandex.

Прописывая отдельные правила для каждого поискового робота, вам легче будет управлять их файлами. Например, можно закрыть определённые группы для индексации в Google, но оставить их для Яндекс.

Максимално допустимый размер файла – 32 КБ, он оставляет возможность каждому ресурсу прописывать важные инструкции для индексирования в отдельных пользовательских агентах. Этого объёма достаточно, чтобы прописать правила для каждой поисковой системы.

Проверка для поискового робота Яндекса

Проверку можно провести в Яндекс.Вебмастере. Здесь предлагаются два варианта:

Справа вверху, рядом со значком пользователя, находится выпадающий список. Выберите в нём «Анализ robots.txt».
Вариант для тех, кто ранее уже добавлял ресурс в систему, а в корне сайта имеется файл robots.txt. Слева выберите пункт «Инструменты», он предложит провести несколько проверок, выберите «Анализ robots.txt».

Изменения, которые вы внесёте в файл во время анализа, будут отображаться не сразу, а станут доступны спустя некоторое время. Если вы внесли изменения днём, то корректность robots проверяйте вечером.

Проверка для поискового робота Google

В Google Search Console выберите ваш сайт, нажмите на кнопку проверки и проанализируйте robots.txt. Система определяет ошибки двух типов: синтаксис и логика. Снизу, после окна редактирования, указано количество ошибок, а в тексте обозначены места, в которых было нарушено правило.
На странице интерфейса снизу расположено пустое окно, в него вставьте необходимый URL.
Справа раскроется меню, в котором нужно выбрать параметр робота.
Нажмите кнопку «Проверить».
После проверки на экране появится статут «Доступен» или «Недоступен».
При обнаружении ошибок, отредактируйте файл и снова выполните проверку.
Скопируйте корректный документ и импортируйте его в ваш robots.txt.

Генераторы robots.txt

Для проверки файла роботс существует сторонние онлайн генераторы, к которым относят:

SEOlib.ru – это сервис, включающий в себя инструмент для проверки ограничений в файле.
PR-CY.ru – это генератор, создающий корректный файл, который можно скопировать и сразу загрузить на ресурс.

Файл Robots – это ключевой инструмент для успешной оптимизации ресурса. Он может оказывать влияние на индекс страниц и некоторых разделов веб-ресурса, повышая или понижая их поисковую выдачу. Корректная настройка файла экономит краулинговый бюджет и облегчает индексацию поисковым системам, которым больше не приходится загружать лишние страницы.