Привет, друг! Ты когда-нибудь слышал о поисковых роботах, которые смогут достать для тебя очень интересную информацию... Нет? Тогда приступим к изучению!
Понятия
Поисковой робот (он же краулеры, боты, веб-паук) - программа, которая индексирует страницы сайта посредством поиска уже на индексированных страницах.
Схема работы бота:
- Сканирование - сбор всех данных со страницы включая изображения, текст и видео. Такой процесс происходит не раз, ибо на странице могут внести изменения.
- Индексация - добавление информации в базу данных поисковой системы.
- Выдача поиска - поиск информации по индексу и ранжирование страниц с учётом релевантности запросу.
Какие боты у Google и Yandex?
У каждого поисковика есть свои поисковые боты. Давайте рассмотрим на примере Google и Yandex.
- Googlebot - основной бот. Работает для десктопных и мобильных версий стандартных сайтов. С июля 2019 года добавлено приоритетное сканирование мобильных версий сайтов, соответственно большинство роботов будут обрабатывать мобильные версии.
- Googlebot Images - поисковый робот для индексации изображений.
- Googlebot News - бот, добавляющий материалы в Google Новости.
- Google Favicon - краулер, собирающий фавиконы (иконки) сайтов.
Впечатляет, да? У Яндекса ситуация не хуже, тоже много ботов.
Yandex
- Основной робот, индексирующий страницы, — YandexBot/3.0.
- Бот, скачивающий страницы для проверки их доступности, — YandexAccessibilityBot/3.0.
- Робот, определяющий зеркала проектов, — YandexBot/3.0; MirrorDetector.
- Бот, индексирующий картинки, — YandexImages/3.0.
- Бот, который скачивает фавиконы сайтов. — YandexFavicons/1.0.
- Краулер, индексирующий мультимедийный контент, — YandexMedia/3.0.
- Бот, собирающий материалы для Яндекс.Новостей, — YandexNews/4.0.
- Краулеры Яндекс.Метрики — YandexMetrika/2.0, YandexMetrika/3.0.
Тёмная сторона
Это несомненно круто, что вы можете за пару секунд найти необходимую вам информацию через поиск. Но давайте рассмотрим как это может применяться в злых целях:
- OSINT - через поиск не так трудно выйти на личную информацию, а значит пополнить копилочку компроматов на недруга.
- Невозможность удаления - многие думают что удалить личную информацию не составит труда, но вы ошибаетесь. Часто в гугл работают мудаки, и слушать ваши просьбы они не захотят.
Итоги
Благодаря краулерам мы можем каждый день искать нужную нам информацию.
Робот сам может искать страницы, и такая программа не требует особых затрат на сотрудников.
Но есть и темные стороны, как OSINT через поиск, отказ удалять информацию и т.д.