Найти тему

"Душим мозг" и злим сео-шника :)

Оглавление
Фотография взята из сети интернет.
Фотография взята из сети интернет.

Сегодня будет тема, которая ну не то чтобы сложная, скорее нудная. Правда, есть момент, который заключается в том, что если хотите начать разбираться в своем сайте и понимать за что вы платите своему специалисту по #seo читать настоятельно рекомендую.

Практика, правда, показывает, что работодателю обычно пофиг что Вы там с сайтом делаете, если вы наемный сотрудник. Технические моменты его не сильно парят (не касается web-студий и digital агентств). Вопрос, с которым к вам из месяца в месяц будет приходит работодатель будет звучать примерно так: "Где деньги, Зин? На что они потрачены?" (с).

Обычно #сео специалист предоставляет отчет по проделанной работе с сайтом. В том или ином формате. Скажем я, делаю .pdf файл, в котором все расписано по пунктам и простым языком.

Что такое robots.txt и как его правильно юзать?

Это служебный файл, он находится в основном каталоге сайта или магазина на вашем хостинге. В нем прописываются правила, согласно которым администратор сайта может управлять индексацией ресурса. Условно, для простоты, когда поисковый робот (специальная программа) от поисковой системы приходит на ваш хостинг и обращается к вашему сайту "интересуясь" есть ли какие-то обновления на сайте, то первым файлом, к которому он обратится будет именно robots.txt.

На практике выглядит он примерно вот так:

Скриншот взят из сети интернет.
Скриншот взят из сети интернет.

В этом небольшом текстовом файле содержится информация для поисковых роботов о том, какие именно ссылки на вашем сайте им можно индексировать. Можно ограничить количество запросов и уменьшить нагрузку на ваш сайт.

Важно! Этот файл НЕ СОЗДАН для того, чтобы запретить показывать материалы в поисковых системах. Чтобы полностью закрыть доступ к контенту, необходимо добавить нужную ссылку в этот файл и поставить на неё пароль, либо использовать специальный директиву noindex (не индексировать).

Для чего используют robots.txt?

Обычно, он нужен для того, как и было сказано выше, для скрытия служебных страниц, закрытия страниц от поисковых систем, которые с точки зрения владельца сайта нежелательны для индексации. При этом можно манипулировать этим файлом так, чтобы отправлять бота поисковых систем на нужные и важные страницы или же, скажем, запрещать создавать дубликаты контента (дубликаты понижают позиции сайта в выдаче поисковых систем).

Но, имейте ввиду, что если вы запретили индексировать ссылку в этом файле, это не означает, что поисковые системы её не проиндексируют в том случае, если есть ссылки с других ресурсов на вашу страницу.

Важно, чтобы файл находился "в корне сайта" и не было его дубликатов. Например: https://primer.ru/robots.txt, в некоторых случаях вид может быть другим. Это зависит от того, какую систему управления сайтом вы используете. Например, для сайтов на системе управления (CMS) Wordpress путь может быть таким: https://primer.ru/www/robots.txt.

На скришоте выше применяется символ # - он нужен для того, чтобы оставлять комментарии для внутреннего пользования, разумеется.

Когда вы создаете файл robots.txt, то рекомендуется учитывать несколько простых правил:

В этом файле обязательно должно быть хоть одно указание: Запретить - Disallow или Разрешить - Allow;

  • Запретить - указывает на то, что именно не нужно индексировать поисковому работу.
  • Разрешить - соответственно, разрешить доступ для поискового робота от той или иной поисковой системы.
  • Sitemap - может быть на сайте, а может и не быть. Часто создается несколько карт сайта. Обычно используется для интернет-магазинов.

Частые ошибки, которые могут возникнуть.

Например, типичная ошибка - перепутанные инструкции:

Disallow: Google - не корректно.

User-agent: Google

Disallow:/ - корректно.

Кто-то пытается запихнуть все в одну строку - это тоже неправильно. Каждый запрет или разрешение пишется с новой строки. Общее количество строк составляет 1024.

Нельзя писать название файла с большой буквы, только с маленькой - robots.txt - только так и не иначе.

Пустые строки в user-agent нельзя использовать.

Правильно писать вот так:

User-agent: *

Disallow:

Иногда у сайта могут быть главная страница и его зеркала. В данном все настройки прописываются в самой поисковой системе. Для этого используются специальные личные кабинеты для Web-мастеров:

Не рекомендуется использовать заглавные буквы внутри robots.txt. Правильно писать так:

User-agent: Yandex

Disallow:

Не стоит перечислять все файлы в одной директории, рекомендуется поставить под запрет или разрешение всю директорию сразу.

Отсутствие Disallow. Поисковый робот может не правильно считать файл, поэтому если ничего не хочется скрывать необходимо оставить её хотя бы пустой. Например:

User-agent: Google

Disallow:

Host: www.primer.ru

Обязательно нужно специальный символ: "/". Например:

User-agent: Google

Disallow: /articles

Логические ошибки - обязательно нужно проверять свой файл robots.txt через оба вебмастера и Яндекс, и Гугл.

Если у вас интернет-магазин, в обязательном порядке от индексации нужно закрывать следующие интернет страницы:

  • Страницы, на которых пользователь совершает какое-то действие. Например, в специальном плагине для WordPress - WooCommerce при установке и активации создаются специальные страницы. Поэтому необходимо закрывать следующие страницы - добавление в корзину, сравнение товаров, добавление в избранное;
  • Страница корзины;
  • Поиск на сайте;
  • Разумеется, конфиденциальные данные пользователей.

Очень важно, чтобы файл robots.txt был правильно настроен. Этот файл чрезвычайно важен для сайта. Надеюсь, эта статья будет для Вас полезна.