484 подписчика

Когда нужно найти неочевидные файлы, старые поддомены или PDF-отчёты на целевом домене — стандартный поиск через web.archive.org часто

2 дня назад2 дня назад

~1 мин

неудобен. Но есть прямой API: http://web.archive.org/cdx/search/cdx?url=... Он возвращает текстовый файл с индексом всех сохранённых копий. Дальше вы сами формируете URL снимков и фильтруете данные. Операторы запросов: output=json — вместо plain текста получаем чистый JSON. fl=original,timestamp,statuscode,mimetype,digest — оставляем только нужные поля. original — исходный URL; timestamp — дата; statuscode — HTTP-код; mimetype — тип файла; digest — хеш содержимого. filter=statuscode:200 — убираем редиректы (3xx) и 404. Да, их тоже архивируют, но нам они не нужны. filter=mimetype:application/pdf — ищем только PDF. Меняй на text/html, image/jpeg и т.д. collapse=digest — если один и тот же файл сохраняли 40 раз с разными timestamp, оставляет только уникальные по содержимому. from=20240101&to=20240630 — временное окно (формат YYYYMMDD). Без него ищет с самого начала. 📱 Telegram | 🌐 ВК | 📲 MAX

Когда нужно найти неочевидные файлы, старые поддомены или PDF-отчёты на целевом домене — стандартный поиск через web.archive.org часто неудобен. Но есть прямой API: http://web.archive.org/cdx/search/cdx?url=... Он возвращает текстовый файл с индексом всех сохранённых копий. Дальше вы сами формируете URL снимков и фильтруете данные.

Операторы запросов:

output=json — вместо plain текста получаем чистый JSON.

fl=original,timestamp,statuscode,mimetype,digest — оставляем только нужные поля.

original — исходный URL; timestamp — дата; statuscode — HTTP-код; mimetype — тип файла; digest — хеш содержимого.

filter=statuscode:200 — убираем редиректы (3xx) и 404. Да, их тоже архивируют, но нам они не нужны.

filter=mimetype:application/pdf — ищем только PDF. Меняй на text/html, image/jpeg и т.д.

collapse=digest — если один и тот же файл сохраняли 40 раз с разными timestamp, оставляет только уникальные по содержимому.

from=20240101&to=20240630 — временное окно (формат YYYYMMDD). Без него ищет с самого начала.

📱 Telegram | 🌐 ВК | 📲 MAX

Гаджеты и электроника

5,73 млн интересуются