Файл robots.txt и мета-тег robots
Если вы решили сами заняться продвижением вашего веб-сайта, то следует обратить внимание не только на создании шикарного контента, но и уделить внимание такому показателю, как индексирование ресурсов поисковика, так как именно от этого и будет зависеть ваше процветание.
Мы имеем с вами 2 вида инструментов (tools) благодаря которым можно владеть эти процессом, так сказать с 2-ух сторон. Есть немаловажный инструмент, как карта веб-сайта (Site map xml). Она объясняет всем поисковикам, какие из страниц веб-сайта подлежат индексации и, когда было последнее обновление.
И сегодня мы поговорим именно об этом.
Индексирование веб-сайта
Названные выше инструменты сильно существенны для удачного процветания вашего проекта.
Держите в голове, что при употреблении ЦМС не все содержимое на веб-сайте обязано быть доступно роботам поисковиков.
Тут появляется вопрос, почему?
Когда он затратит время на индексацию файлов веб-сайта, robot поисковиков и вовсе может не добраться до главного контента, только спустя достаточное количество времени. Все-таки тут имеются лимиты на число страниц, и когда лимит будет исчерпан, он просто покинет вас, уйдя на иные ресурсы.
Так же, кто хочет посмотреть, как выглядит данный файл у других проектов, то требуется приписать к URL основной страницы концовку в виде /robots.txt.
Наименования роботов поисковиков
У всех ботов-поисковиков есть свои имена. Ниже представлен список популярных:
У масштабных поисковиков, таких как Google, есть еще экземпляры, чтобы индексировать новости и др.
Что же делать в такой ситуации? Если требуется составить правила на запрет индексации, то лучше употребите название Google bot и оставшиеся тоже прислушаются.
Примеры применения директив Disallow и Allow в robots.txt
Покажу пару легких примеров применения директива с пояснением.
1. Код, который находится ниже, позволяет практически всем ботам провести индексацию всего содержания. С помощью пустой директивы Disallow.
2. Далее следует код, который же наоборот, дает запрет любому поисковику добавить в индекс всех страниц данного ресурса.
3. В данном варианте будут ограничения для всех ботов в просмотре каталогов /image.
4. В примере, который приведен чуть ниже, будут запрещены директивы "image":
5. Благодаря директиве Allow мы делаем доступ разрешенным. Он неплохо дополняет директиву Disallow.
6. Когда будете описывать пути для директивы Allow и директивы Disallow, можно применить символы доллара и звездочки ("*","$").
Наша звездочка "*" обозначает любую очередность символов. Последующий пример не дает возможность всем поисковикам индексирования файлов, у которых расширение .php:
Для чего же нужен знак "$"? Просто по логике составленного файла роботс.тхт, в конце все директив как бы по умолчанию дописывается "*"(если ее нет, она как бы присутствует). К примеру, мы строчим:
Получается, что оно схоже с:
Директива Host показывает основное зеркало веб-сайта для Yandex
При использовании незащищенного протокола указывать требуется не весь URL, а имя домена, к примеру, без http:\\, т.е. google.com, а не https://google.com). Вдруг вы пользуетесь протоколом https, тогда уже требуется указывать полное URL (пример https://google.com).
При стандартном написании robots.txt за любой директивой user-agent обязана сразу же последовать минимум одна директива Disallo (даже если она в себе ничего не несет). Еще возможно будет иметь смысл прописывать host для конкретного блога "user-agent: yandex", а не "user-agent: *" для того, чтобы не пытаться сбить с пути поисковых роботов, к данную директиву не могут поддерживать:
либо
либо
либо
Указание или скрытие путь до карты веб-сайта sitemap.хмл в файле роботс
Директива Sitemap показывает нам местоположение файла map веб-сайта. В качестве параметра обычно мы должны указать его расположение, как до него добраться, не забывая его URL. С помощью этого робот поисковика сможет без труда отыскать его. К примеру:
Сейчас большое количество скрывают этот файл веб-сайта внутри остальных директорий, чтобы вредителям контента не давалась возможность применить комфортный инструмент. А путь, который лежит до карты веб-сайта, не советуем в robots.txt показывать. Потому, что это вполне можно сотворить через панели поисковиков, тем самым "не выдавая" его местонахождение.
Как создать безошибочный robots.txt?
Насколько нам известно, у проектов, которые были сотворены на движках типа (WP,Jooomla и т.д.), есть много вспомогательных объектов, которые не несут никаких сведений.
Так же нужно стремиться, чтобы контент был уникален и не нужно допускать его дублирования (содержимого).
Yandex и Google после индексации легко отыщут дубликаты, и скорее всего не будут оставаться без действий. Существует мета-тег Canonical.
Комфортный инструмент для того, чтобы предотвращать дубликаты контента - поисковые системы всячески не будут индексировать страницы вообще при условии, если в Canonical будет написан другой URK.
Разберем примеры роботса, которые созданы для различных движков - WP, Jooomla. У этим двух вариантов есть один общий параметр, и этот параметр связан с поисковиком Yandex.
Robots для вордпрес
Следует помогать поисковикам в отборе. Первое: чтобы проиндексировать мусор, будет потеряно затратное количество времени у ботов Yandex и Google. Второе: боты, лазящие по файлам движка, которые считаются мусором, они лишь будут делать лишние действия, тем самым и нагрузку на сервер, что может плохо сказаться.
И вообще, отличного файла для WP не существует. Конечно же можно сделать предпосылки, но никто не говорил, что и они будут отличными. Вариации идеальнейших роботс.тхт в Интернете хватает.
Приведем два типа:
1. Тут можно отыскать очень полезную информацию с очень подробными объяснениями:
2.Пример минимализма:
Правда состоит где-то на нейтральной зоне. Пишите мета-тэг Роботс для страниц, которые являются ненужными.
Robots для Joomla
В целом, тут все работает неплохо. Но здесь лучше использовать user agent: Яндекс, чтобы вставить директиву хост.
В результате Роботс для Joomla обязан выглядеть именно так:
Также вам стоит сосредоточиться на том, что во втором варианте существуют директивы Allow, позволяющие индексацию скриптов и изображений.
Из этого следует то, что раньше это дело разрешалось индексировать с поддержкой Allow.
Если же у Вас есть сомнения правильно ли заполнен файл robots.txt – закажите SEO аудит и мы проверим или создадим этот файл.