31 подписчик

«Докажите, что вы не робот»: все о роботах поисковых систем

22 марта 202122 мар 2021

117

5 мин

Программы, действующие в поисковых системах — роботы, краулеры, пауки — существуют не сами по себе. Это важная часть механизма индексации сайта и один из ключевых способов указать на его существование во всемирной паутине. А значит, когда вы создаете страницу или работаете над ее оптимизацией, вы должны думать не только о том, какой ее увидит пользователь, но и о том, как она будет считываться ботами.

Поисковые боты — что это?

Программы-краулеры занимаются сканированием и индексацией сайтов. Задача робота — искать сайты, переходить по их страницам с помощью внутренних ссылок, собирать информацию и затем передавать ее на сервера поисковых систем. Это касается и новых, созданных недавно ресурсов, и старых страниц, на которых произошли изменения.

В дальнейшем эта информация, проанализированная и внесенная в базу, будет использоваться при выдаче сайта по запросам в браузере.

Алгоритм работы бота

«Пауки» обрабатывают веб-страницы по определенному алгоритму, который отличается от действий рядового пользователя.

Они переходят на сайт, сканируют первую страницу, сохраняют ее содержимое и переходят на следующую по внутренней ссылке, повторяя операцию. В том случае, если на портал не ведут внешние ссы лки (или вы хотите ускорить процесс проверки), можно самостоятельно добавить сайт в очередь для индексирования.

Чтобы упростить и упорядочить работу программы, на сайт добавляются файлы robots.txt и XML Sitemap.

XML-карта сайта – файл формата XML, включающий ссылки на все страницы сайта, которые нужно посещать поисковому роботу. Это особенно важно для многостраничных порталов со сложной структурой, глубокой вложенностью и неоднозначной перелинковкой.

У файла robots.txt другая функция: он управляет действиями бота, ограничивая его посещения или глубину проникновения. Почему это бывает важно — мы поговорим чуть позже.

Основные поисковые роботы

У каждой поисковой системы есть свой набор «пауков», каждый из которых отвечает за ту или иную задачу.

Боты Яндекса

YandexBot – ключевой робот, выполняет индексацию.
YandexImages – работает с изображениями и графикой, добавляет их в индекс.
YandexMobileBot – помогает определить степень адаптации страницы для мобильных устройств.
YandexDirect – сканирует контент ресурсов-партнеров рекламной сети Яндекса.
YandexMetrika – привязан к сервису Яндекс.Метрика.
YandexMarket – то же самое для Яндекс.Маркета.
YandexNews – сканирует новостные материалы для добавления в Яндекс.Новости.
YandexScreenshotBot – работает со скриншотами документов.
YandexMedia – индексатор мультимедийных данных.
YandexVideoParser – робот Яндекс.Видео.
YandexPagechecker – отвечает за микроразметку.
YandexOntoDBAPI – программа-краулер объектного ответа, занимается скачиванием изменяющихся данных.
YandexAccessibilityBot – скачивает загруженные на сайт файлы, чтобы проверить, имеют ли к ним доступ посетители.
YandexSearchShop – работает с файлами формата Yandex Market Language, которые относятся к каталогам товаров.
YaDirectFetcher – собирает страницы, содержащие рекламу, чтобы проверить их доступность для посетителя и проанализировать тематику.
YandexirectDyn – отслеживает динамические баннеры.

Боты Google

Googlebot – ключевой индексатор содержимого страниц для ПК и мобильных устройств.
AdsBot-Google – отслеживает рекламу (и ее качество) на страницах, оптимизированных под ПК.
AdsBot-Google-Mobile – занимается тем же, но для мобильных страниц.
AdsBot-Google-Mobile-Apps – оценивает рекламу в приложениях для Android.
Mediaparnters-Google – собственный бот маркетинговой сети Google AdSense.
APIs-Google – юзер-агент пользователя APIs-Google для отправки пуш-уведомлений.
Googlebot-Video – индексирует видеоматериалы, размещенные в интернете.
Googlebot-Image – индексирует изображения на сайтах.
Googlebot-News – сканирует страницы с новостями и добавляет их в Google Новости.

Как узнать, что сайт посещали роботы?

Узнать, есть ли URL в индексе Яндекса или Google, можно с помощью сервис ов Яндекс Вебмастер и Google Search Console соответственно .

Для поиска страницы в индексе Яндекса откройте отчёт «Страницы в поиске» в Яндекс.Вебмастер. Также можно открыть панель управления Вебмастера, перейти на страницу Индексирование , а затем – Статистика обхода . Обновление данных проводится ежедневно, результат будет отображен не позже, чем через 6 часов после посещения робота.

Еще один способ узнать, что поисковый паук посещал сайт – просмотреть логи сервера.

Здесь хранится вся информация о тех, кто посещал ресурс: IP-адрес, история просмотра страниц, ответ, полученный на сайте.

Как управлять пауками?

Не всегда свободное перемещение поискового бота по страницам сайта — это хорошо. Есть случаи, когда их можно и нужно ограничивать:

слишком частые визиты могут создать нагрузку на сервер и замедлить работу ресурса;
на странице находится конфиденциальная информация — например, данные пользователей;
на странице находится малополезная информация — как правило, это служебные страницы и дубли.

Для того, чтобы заставить поисковых роботов посетить определенные страницы сайта, существуют специальные сервисы поисковых систем, называемые аддурилками (сленг., сокр. от англ. add url, или добавить адрес сайта).
Например, аддурилка Яндекса .
Добавление важных страниц в аддурилку позволит сократить сроки, необходимые для их индексации.

Хакерские атаки на сайт часто маскируются под визиты «пауков» - поэтому так важно их отслеживать и контролировать. Чтобы проверить, кто именно посещал сайт — настоящий робот поисковой системы или спамеры/хакеры, скопируйте IP-адрес, с которого был сделан запрос к сайту, в логах сервера хостинг-провайдера. Далее проверьте данный IP с помощью специализированного сервиса (например, MyIp ). Адрес, указанный в строке IP Reverse DNS (Host), должен совпадать с исходным в логах сервера.

Для управления краулерами используются уже знакомые вам файлы: sitemap.xml и robots.txt.

Теги <changefreq> и <priority> в файле sitemap.xml позволяют установить частоту обновления и приоритет каждой страницы (соответственно). Например, для статичной страницы «О компании» можно снизить эти показатели без большого ущерба для продвижения, а вот раздел новостей или каталог товаров лучше индексировать вовремя.
Директива Disallow в файле robots.txt закроет определенные страницы для всех ботов — или только для некоторых из них. Скрывать стоит материалы, которые должны присутствовать на сайте, но могут помешать его SEO- продвижению.
При работе с файлом robots.txt стоит учесть, что закрытые страницы все равно могут попасть в индекс. Полностью исключить такую вероятность поможет метатег robots или доступ к материалам только после аутентификации.

Грамотно выстроенная работа с поисковыми роботами — одна из важных составляющих успешного продвижения вашего сайта в сети Интернет.

Idea-Promotion