Программы, действующие в поисковых системах — роботы, краулеры, пауки — существуют не сами по себе. Это важная часть механизма индексации сайта и один из ключевых способов указать на его существование во всемирной паутине. А значит, когда вы создаете страницу или работаете над ее оптимизацией, вы должны думать не только о том, какой ее увидит пользователь, но и о том, как она будет считываться ботами.
Поисковые боты — что это?
Программы-краулеры занимаются сканированием и индексацией сайтов. Задача робота — искать сайты, переходить по их страницам с помощью внутренних ссылок, собирать информацию и затем передавать ее на сервера поисковых систем. Это касается и новых, созданных недавно ресурсов, и старых страниц, на которых произошли изменения.
В дальнейшем эта информация, проанализированная и внесенная в базу, будет использоваться при выдаче сайта по запросам в браузере.
Алгоритм работы бота
«Пауки» обрабатывают веб-страницы по определенному алгоритму, который отличается от действий рядового пользователя.
Они переходят на сайт, сканируют первую страницу, сохраняют ее содержимое и переходят на следующую по внутренней ссылке, повторяя операцию. В том случае, если на портал не ведут внешние ссы лки (или вы хотите ускорить процесс проверки), можно самостоятельно добавить сайт в очередь для индексирования.
Чтобы упростить и упорядочить работу программы, на сайт добавляются файлы robots.txt и XML Sitemap.
XML-карта сайта – файл формата XML, включающий ссылки на все страницы сайта, которые нужно посещать поисковому роботу. Это особенно важно для многостраничных порталов со сложной структурой, глубокой вложенностью и неоднозначной перелинковкой.
У файла robots.txt другая функция: он управляет действиями бота, ограничивая его посещения или глубину проникновения. Почему это бывает важно — мы поговорим чуть позже.
Основные поисковые роботы
У каждой поисковой системы есть свой набор «пауков», каждый из которых отвечает за ту или иную задачу.
Боты Яндекса
- YandexBot – ключевой робот, выполняет индексацию.
- YandexImages – работает с изображениями и графикой, добавляет их в индекс.
- YandexMobileBot – помогает определить степень адаптации страницы для мобильных устройств.
- YandexDirect – сканирует контент ресурсов-партнеров рекламной сети Яндекса.
- YandexMetrika – привязан к сервису Яндекс.Метрика.
- YandexMarket – то же самое для Яндекс.Маркета.
- YandexNews – сканирует новостные материалы для добавления в Яндекс.Новости.
- YandexScreenshotBot – работает со скриншотами документов.
- YandexMedia – индексатор мультимедийных данных.
- YandexVideoParser – робот Яндекс.Видео.
- YandexPagechecker – отвечает за микроразметку.
- YandexOntoDBAPI – программа-краулер объектного ответа, занимается скачиванием изменяющихся данных.
- YandexAccessibilityBot – скачивает загруженные на сайт файлы, чтобы проверить, имеют ли к ним доступ посетители.
- YandexSearchShop – работает с файлами формата Yandex Market Language, которые относятся к каталогам товаров.
- YaDirectFetcher – собирает страницы, содержащие рекламу, чтобы проверить их доступность для посетителя и проанализировать тематику.
- YandexirectDyn – отслеживает динамические баннеры.
- Googlebot – ключевой индексатор содержимого страниц для ПК и мобильных устройств.
- AdsBot-Google – отслеживает рекламу (и ее качество) на страницах, оптимизированных под ПК.
- AdsBot-Google-Mobile – занимается тем же, но для мобильных страниц.
- AdsBot-Google-Mobile-Apps – оценивает рекламу в приложениях для Android.
- Mediaparnters-Google – собственный бот маркетинговой сети Google AdSense.
- APIs-Google – юзер-агент пользователя APIs-Google для отправки пуш-уведомлений.
- Googlebot-Video – индексирует видеоматериалы, размещенные в интернете.
- Googlebot-Image – индексирует изображения на сайтах.
- Googlebot-News – сканирует страницы с новостями и добавляет их в Google Новости.
Как узнать, что сайт посещали роботы?
Узнать, есть ли URL в индексе Яндекса или Google, можно с помощью сервис ов Яндекс Вебмастер и Google Search Console соответственно .
Для поиска страницы в индексе Яндекса откройте отчёт «Страницы в поиске» в Яндекс.Вебмастер. Также можно открыть панель управления Вебмастера, перейти на страницу Индексирование , а затем – Статистика обхода . Обновление данных проводится ежедневно, результат будет отображен не позже, чем через 6 часов после посещения робота.
Еще один способ узнать, что поисковый паук посещал сайт – просмотреть логи сервера.
Здесь хранится вся информация о тех, кто посещал ресурс: IP-адрес, история просмотра страниц, ответ, полученный на сайте.
Не всегда свободное перемещение поискового бота по страницам сайта — это хорошо. Есть случаи, когда их можно и нужно ограничивать:
- слишком частые визиты могут создать нагрузку на сервер и замедлить работу ресурса;
- на странице находится конфиденциальная информация — например, данные пользователей;
- на странице находится малополезная информация — как правило, это служебные страницы и дубли.
Для того, чтобы заставить поисковых роботов посетить определенные страницы сайта, существуют специальные сервисы поисковых систем, называемые аддурилками (сленг., сокр. от англ. add url, или добавить адрес сайта).
Например, аддурилка Яндекса .
Добавление важных страниц в аддурилку позволит сократить сроки, необходимые для их индексации.
Хакерские атаки на сайт часто маскируются под визиты «пауков» - поэтому так важно их отслеживать и контролировать. Чтобы проверить, кто именно посещал сайт — настоящий робот поисковой системы или спамеры/хакеры, скопируйте IP-адрес, с которого был сделан запрос к сайту, в логах сервера хостинг-провайдера. Далее проверьте данный IP с помощью специализированного сервиса (например, MyIp ). Адрес, указанный в строке IP Reverse DNS (Host), должен совпадать с исходным в логах сервера.
Для управления краулерами используются уже знакомые вам файлы: sitemap.xml и robots.txt.
- Теги <changefreq> и <priority> в файле sitemap.xml позволяют установить частоту обновления и приоритет каждой страницы (соответственно). Например, для статичной страницы «О компании» можно снизить эти показатели без большого ущерба для продвижения, а вот раздел новостей или каталог товаров лучше индексировать вовремя.
- Директива Disallow в файле robots.txt закроет определенные страницы для всех ботов — или только для некоторых из них. Скрывать стоит материалы, которые должны присутствовать на сайте, но могут помешать его SEO- продвижению.
- При работе с файлом robots.txt стоит учесть, что закрытые страницы все равно могут попасть в индекс. Полностью исключить такую вероятность поможет метатег robots или доступ к материалам только после аутентификации.
Грамотно выстроенная работа с поисковыми роботами — одна из важных составляющих успешного продвижения вашего сайта в сети Интернет.