Найти тему

«Докажите, что вы не робот»: все о роботах поисковых систем

Программы, действующие в поисковых системах — роботы, краулеры, пауки — существуют не сами по себе. Это важная часть механизма индексации сайта и один из ключевых способов указать на его существование во всемирной паутине. А значит, когда вы создаете страницу или работаете над ее оптимизацией, вы должны думать не только о том, какой ее увидит пользователь, но и о том, как она будет считываться ботами.

Поисковые боты — что это?

Программы-краулеры занимаются сканированием и индексацией сайтов. Задача робота — искать сайты, переходить по их страницам с помощью внутренних ссылок, собирать информацию и затем передавать ее на сервера поисковых систем. Это касается и новых, созданных недавно ресурсов, и старых страниц, на которых произошли изменения.

В дальнейшем эта информация, проанализированная и внесенная в базу, будет использоваться при выдаче сайта по запросам в браузере.

Алгоритм работы бота

«Пауки» обрабатывают веб-страницы по определенному алгоритму, который отличается от действий рядового пользователя.

Они переходят на сайт, сканируют первую страницу, сохраняют ее содержимое и переходят на следующую по внутренней ссылке, повторяя операцию. В том случае, если на портал не ведут внешние ссы лки (или вы хотите ускорить процесс проверки), можно самостоятельно добавить сайт в очередь для индексирования.

Чтобы упростить и упорядочить работу программы, на сайт добавляются файлы robots.txt и XML Sitemap.

-2

XML-карта сайта  – файл формата XML, включающий ссылки на все страницы сайта, которые нужно посещать поисковому роботу. Это особенно важно для многостраничных порталов со сложной структурой, глубокой вложенностью и неоднозначной перелинковкой.

У файла robots.txt другая функция: он управляет действиями бота, ограничивая его посещения или глубину проникновения. Почему это бывает важно — мы поговорим чуть позже.

Основные поисковые роботы

У каждой поисковой системы есть свой набор «пауков», каждый из которых отвечает за ту или иную задачу.

Боты Яндекса

-3
  • YandexBot  – ключевой робот, выполняет индексацию.
  • YandexImages  – работает с изображениями и графикой, добавляет их в индекс.
  • YandexMobileBot  – помогает определить степень адаптации страницы для мобильных устройств.
  • YandexDirect  – сканирует контент ресурсов-партнеров рекламной сети Яндекса.
  • YandexMetrika  – привязан к сервису Яндекс.Метрика.
  • YandexMarket  – то же самое для Яндекс.Маркета.
  • YandexNews  – сканирует новостные материалы для добавления в Яндекс.Новости.
  • YandexScreenshotBot  – работает со скриншотами документов.
  • YandexMedia  – индексатор мультимедийных данных.
  • YandexVideoParser  – робот Яндекс.Видео.
  • YandexPagechecker  – отвечает за микроразметку.
  • YandexOntoDBAPI  – программа-краулер объектного ответа, занимается скачиванием изменяющихся данных.
  • YandexAccessibilityBot  – скачивает загруженные на сайт файлы, чтобы проверить, имеют ли к ним доступ посетители.
  • YandexSearchShop  – работает с файлами формата Yandex Market Language, которые относятся к каталогам товаров.
  • YaDirectFetcher  – собирает страницы, содержащие рекламу, чтобы проверить их доступность для посетителя и проанализировать тематику.
  • YandexirectDyn  – отслеживает динамические баннеры.

Боты Google

-4
  • Googlebot  – ключевой индексатор содержимого страниц для ПК и мобильных устройств.
  • AdsBot-Google  – отслеживает рекламу (и ее качество) на страницах, оптимизированных под ПК.
  • AdsBot-Google-Mobile  – занимается тем же, но для мобильных страниц.
  • AdsBot-Google-Mobile-Apps  – оценивает рекламу в приложениях для Android.
  • Mediaparnters-Google  – собственный бот маркетинговой сети Google AdSense.
  • APIs-Google  – юзер-агент пользователя APIs-Google для отправки пуш-уведомлений.
  • Googlebot-Video  – индексирует видеоматериалы, размещенные в интернете.
  • Googlebot-Image  – индексирует изображения на сайтах.
  • Googlebot-News  – сканирует страницы с новостями и добавляет их в Google Новости.

Как узнать, что сайт посещали  роботы?

Узнать, есть ли URL в индексе Яндекса  или Google, можно с помощью сервис ов  Яндекс Вебмастер и  Google Search Console  соответственно .

Для поиска страницы в индексе Яндекса откройте отчёт «Страницы в поиске» в Яндекс.Вебмастер. Также можно  открыть  панель управления Вебмастера, перейти на страницу Индексирование , а затем – Статистика обхода . Обновление данных проводится ежедневно, результат будет отображен не позже, чем через 6 часов после посещения робота.

Еще один способ узнать, что поисковый паук посещал сайт – просмотреть логи сервера.

Здесь хранится вся информация о тех, кто посещал ресурс: IP-адрес, история просмотра страниц, ответ,  полученный на сайте.

Как управлять пауками?

-5

Не всегда свободное перемещение поискового бота по страницам сайта — это хорошо. Есть случаи, когда их можно и нужно ограничивать:

  • слишком частые визиты могут создать нагрузку на сервер и замедлить работу ресурса;
  • на странице находится конфиденциальная информация — например, данные пользователей;
  • на странице находится малополезная информация — как правило, это служебные страницы и дубли.

Для  того, чтобы заставить поисковых роботов посетить определенные страницы сайта, существуют специальные сервисы поисковых систем, называемые аддурилками (сленг., сокр. от англ. add url, или добавить адрес сайта).
Например,
аддурилка Яндекса .
Добавление важных страниц в аддурилку позволит сократить сроки, необходимые для их индексации.

Хакерские атаки на сайт часто маскируются под визиты «пауков» - поэтому так важно их отслеживать и контролировать. Чтобы проверить, кто именно посещал сайт — настоящий робот поисковой системы или спамеры/хакеры, скопируйте IP-адрес, с которого был сделан запрос к сайту, в логах сервера хостинг-провайдера. Далее проверьте данный IP с помощью специализированного сервиса (например, MyIp ). Адрес, указанный в строке IP Reverse DNS (Host), должен совпадать с исходным в логах сервера.

-6

Для управления краулерами используются уже знакомые вам файлы: sitemap.xml  и robots.txt.

  • Теги <changefreq> и <priority> в файле sitemap.xml позволяют установить частоту обновления и приоритет каждой страницы (соответственно). Например, для статичной страницы «О компании» можно снизить эти показатели без большого ущерба для продвижения, а вот раздел новостей или каталог товаров лучше индексировать вовремя.
  • Директива Disallow в файле robots.txt закроет определенные страницы для всех ботов — или только для некоторых из них. Скрывать стоит материалы, которые должны присутствовать на сайте, но могут помешать его SEO- продвижению.
  • При работе с файлом robots.txt стоит учесть, что закрытые страницы все равно могут  попасть в индекс. Полностью исключить такую вероятность поможет метатег robots или доступ к материалам только после аутентификации.

Грамотно выстроенная работа с поисковыми роботами — одна из важных составляющих успешного продвижения вашего сайта в сети Интернет.

Idea-Promotion