Найти тему

Что такое поисковой робот и как он работает?

Оглавление


Привет, друг! Ты когда-нибудь слышал о поисковых роботах, которые смогут достать для тебя очень интересную информацию... Нет? Тогда приступим к изучению!

Понятия

Поисковой робот (он же краулеры, боты, веб-паук) - программа, которая индексирует страницы сайта посредством поиска уже на индексированных страницах.

Схема работы бота:

  • Сканирование - сбор всех данных со страницы включая изображения, текст и видео. Такой процесс происходит не раз, ибо на странице могут внести изменения.
  • Индексация - добавление информации в базу данных поисковой системы.
  • Выдача поиска - поиск информации по индексу и ранжирование страниц с учётом релевантности запросу.

      Какие боты у Google и Yandex?

У каждого поисковика есть свои поисковые боты. Давайте рассмотрим на примере Google и Yandex.

Google

  • Googlebot - основной бот. Работает для десктопных и мобильных версий стандартных сайтов. С июля 2019 года добавлено приоритетное сканирование мобильных версий сайтов, соответственно большинство роботов будут обрабатывать мобильные версии.
  • Googlebot Images - поисковый робот для индексации изображений.
  • Googlebot News - бот, добавляющий материалы в Google Новости.
  • Google Favicon - краулер, собирающий фавиконы (иконки) сайтов.

Впечатляет, да? У Яндекса ситуация не хуже, тоже много ботов.

Yandex

-2
  • Основной робот, индексирующий страницы, — YandexBot/3.0.
  • Бот, скачивающий страницы для проверки их доступности, — YandexAccessibilityBot/3.0.
  • Робот, определяющий зеркала проектов, — YandexBot/3.0; MirrorDetector.
  • Бот, индексирующий картинки, — YandexImages/3.0.
  • Бот, который скачивает фавиконы сайтов. — YandexFavicons/1.0.
  • Краулер, индексирующий мультимедийный контент, — YandexMedia/3.0.
  • Бот, собирающий материалы для Яндекс.Новостей, — YandexNews/4.0.
  • Краулеры Яндекс.Метрики — YandexMetrika/2.0, YandexMetrika/3.0.

                   Тёмная сторона 

-3

Это несомненно круто, что вы можете за пару секунд найти необходимую вам информацию через поиск. Но давайте рассмотрим как это может применяться в злых целях:

  • OSINT - через поиск не так трудно выйти на личную информацию, а значит пополнить копилочку компроматов на недруга.
  • Невозможность удаления - многие думают что удалить личную информацию не составит труда, но вы ошибаетесь. Часто в гугл работают мудаки, и слушать ваши просьбы они не захотят.

                             Итоги

-4

Благодаря краулерам мы можем каждый день искать нужную нам информацию.
Робот сам может искать страницы, и такая программа не требует особых затрат на сотрудников.
Но есть и темные стороны, как OSINT через поиск, отказ удалять информацию и т.д.