Найти в Дзене

Что такое поисковой робот и как он работает?

Привет, друг! Ты когда-нибудь слышал о поисковых роботах, которые смогут достать для тебя очень интересную информацию... Нет? Тогда приступим к изучению! Понятия Поисковой робот (он же краулеры, боты, веб-паук) - программа, которая индексирует страницы сайта посредством поиска уже на индексированных страницах.
Схема работы бота:       Какие боты у Google и Yandex? У каждого поисковика есть свои поисковые боты. Давайте рассмотрим на примере Google и Yandex.
Google Впечатляет, да? У Яндекса ситуация не хуже, тоже много ботов. Yandex                    Тёмная сторона  Это несомненно круто, что вы можете за пару секунд найти необходимую вам информацию через поиск. Но давайте рассмотрим как это может применяться в злых целях:
                             Итоги Благодаря краулерам мы можем каждый день искать нужную нам информацию.
Робот сам может искать страницы, и такая программа не требует особых затрат на сотрудников.
Но есть и темные стороны, как OSINT через поиск, отказ удалять инф
Оглавление


Привет, друг! Ты когда-нибудь слышал о поисковых роботах, которые смогут достать для тебя очень интересную информацию... Нет? Тогда приступим к изучению!

Понятия

Поисковой робот (он же краулеры, боты, веб-паук) - программа, которая индексирует страницы сайта посредством поиска уже на индексированных страницах.

Схема работы бота:

  • Сканирование - сбор всех данных со страницы включая изображения, текст и видео. Такой процесс происходит не раз, ибо на странице могут внести изменения.
  • Индексация - добавление информации в базу данных поисковой системы.
  • Выдача поиска - поиск информации по индексу и ранжирование страниц с учётом релевантности запросу.

      Какие боты у Google и Yandex?

У каждого поисковика есть свои поисковые боты. Давайте рассмотрим на примере Google и Yandex.

Google

  • Googlebot - основной бот. Работает для десктопных и мобильных версий стандартных сайтов. С июля 2019 года добавлено приоритетное сканирование мобильных версий сайтов, соответственно большинство роботов будут обрабатывать мобильные версии.
  • Googlebot Images - поисковый робот для индексации изображений.
  • Googlebot News - бот, добавляющий материалы в Google Новости.
  • Google Favicon - краулер, собирающий фавиконы (иконки) сайтов.

Впечатляет, да? У Яндекса ситуация не хуже, тоже много ботов.

Yandex

-2
  • Основной робот, индексирующий страницы, — YandexBot/3.0.
  • Бот, скачивающий страницы для проверки их доступности, — YandexAccessibilityBot/3.0.
  • Робот, определяющий зеркала проектов, — YandexBot/3.0; MirrorDetector.
  • Бот, индексирующий картинки, — YandexImages/3.0.
  • Бот, который скачивает фавиконы сайтов. — YandexFavicons/1.0.
  • Краулер, индексирующий мультимедийный контент, — YandexMedia/3.0.
  • Бот, собирающий материалы для Яндекс.Новостей, — YandexNews/4.0.
  • Краулеры Яндекс.Метрики — YandexMetrika/2.0, YandexMetrika/3.0.

                   Тёмная сторона 

-3

Это несомненно круто, что вы можете за пару секунд найти необходимую вам информацию через поиск. Но давайте рассмотрим как это может применяться в злых целях:

  • OSINT - через поиск не так трудно выйти на личную информацию, а значит пополнить копилочку компроматов на недруга.
  • Невозможность удаления - многие думают что удалить личную информацию не составит труда, но вы ошибаетесь. Часто в гугл работают мудаки, и слушать ваши просьбы они не захотят.

                             Итоги

-4

Благодаря краулерам мы можем каждый день искать нужную нам информацию.
Робот сам может искать страницы, и такая программа не требует особых затрат на сотрудников.
Но есть и темные стороны, как OSINT через поиск, отказ удалять информацию и т.д.