Добавить в корзинуПозвонить
Найти в Дзене

theHarvester: инструмент для сбора данных из открытых источников — 15 тысяч звезд на GitHub

Знаете, в мире кибербезопасности есть такая штука, которая стоит на самом старте любого серьёзного тестирования — разведка. Ещё до того как специалисты по безопасности начинают искать уязвимости, им нужно понять что вообще есть у цели. Вот тут и появляется инструмент под названием theHarvester, который специализируется на сборе информации из открытых источников. И речь идёт не о каком-то взломе — всё абсолютно легально, потому что инструмент работает только с публичными данными. Суть theHarvester в том, что он автоматически прочёсывает интернет в поисках информации о конкретном домене или организации. Email-адреса сотрудников, поддомены сайта, IP-адреса серверов, URL-адреса — всё это можно найти через публичные источники, если знать где искать. Обычно такую работу пришлось бы делать вручную, переходя от одного сервиса к другому, но theHarvester автоматизирует весь процесс и собирает данные из десятков источников одновременно. Проект живёт на GitHub и пользуется серьёзной популярнос

theHarvester: инструмент для сбора данных из открытых источников
theHarvester: инструмент для сбора данных из открытых источников

Знаете, в мире кибербезопасности есть такая штука, которая стоит на самом старте любого серьёзного тестирования — разведка. Ещё до того как специалисты по безопасности начинают искать уязвимости, им нужно понять что вообще есть у цели. Вот тут и появляется инструмент под названием theHarvester, который специализируется на сборе информации из открытых источников. И речь идёт не о каком-то взломе — всё абсолютно легально, потому что инструмент работает только с публичными данными.

Суть theHarvester в том, что он автоматически прочёсывает интернет в поисках информации о конкретном домене или организации. Email-адреса сотрудников, поддомены сайта, IP-адреса серверов, URL-адреса — всё это можно найти через публичные источники, если знать где искать. Обычно такую работу пришлось бы делать вручную, переходя от одного сервиса к другому, но theHarvester автоматизирует весь процесс и собирает данные из десятков источников одновременно.

Проект живёт на GitHub и пользуется серьёзной популярностью — почти 15 тысяч звёзд, что для специализированного инструмента довольно впечатляюще. Разрабатывает его команда энтузиастов во главе с Кристианом Марторелла, и проект активно обновляется — последняя версия вышла в июле этого года. Интересно что theHarvester по умолчанию включён в дистрибутив Kali Linux, который считается стандартом для специалистов по информационной безопасности.

Что касается источников данных, то тут реально впечатляющий список. Инструмент умеет работать с поисковиками вроде Google, Bing, Baidu и DuckDuckGo, специализированными платформами как Shodan и Censys, базами данных вроде Have I Been Pwned, и ещё десятками других сервисов. Всего поддерживается более сорока различных источников, каждый из которых даёт свой кусочек информации. Есть даже возможность делать DNS brute-force атаки для поиска скрытых поддоменов и автоматически делать скриншоты найденных ресурсов.

Правда, тут есть один нюанс. Многие из этих источников требуют API-ключи, и часто платные. Например, Shodan предлагает планы от 69 долларов в месяц для фрилансеров, SecurityTrails — от 500 долларов за 20 тысяч запросов, а некоторые сервисы дают только 50-100 бесплатных запросов в месяц. С одной стороны это ограничение, с другой — даже бесплатные тарифы многих сервисов дают достаточно данных для базовой разведки, а платные опции нужны скорее профессионалам, которые проводят регулярные аудиты.

Использовать theHarvester начали в основном пентестеры и red team специалисты — те люди, которых компании нанимают чтобы проверить свою защиту. Логика простая: собираешь информацию о внешней инфраструктуре компании, находишь забытые поддомены, устаревшие серверы, email-адреса сотрудников — и всё это становится картой потенциальных векторов атаки. Судя по обсуждениям в комьюнити, инструмент также активно используют blue team специалисты для аудита собственной цифровой экспозиции — чтобы увидеть что о компании можно найти извне.

Сообщество отмечает что theHarvester относительно прост в освоении даже для новичков в кибербезопасности. Это консольная утилита на Python, и базовое использование сводится к указанию целевого домена и выбору источников данных. Результаты можно сохранять в разных форматах — текст, HTML, XML — что удобно для дальнейшего анализа или включения в отчёты.

Интересный момент — некоторые компании не очень рады когда по ним собирают такую информацию, даже публичную. Пользователи упоминают что LinkedIn в своё время были случаи конфликтов из-за активного сбора данных. Поэтому специалисты рекомендуют использовать инструмент этично и желательно только на тех доменах, на которые есть разрешение владельца.

В общем, theHarvester — это классический пример инструмента, который делает одну вещь и делает её хорошо. Автоматизация разведки по открытым источникам экономит массу времени и помогает построить полную картину цифрового присутствия организации. Для тех, кто занимается информационной безопасностью или просто изучает эту область, инструмент определённо заслуживает внимания.

Источник на GitHub