Найти тему
Хроники диванной разведки

2 способа оптимизировать работу со Всемирным Архивом Интернета

fossbytes.com
fossbytes.com

Всемирный архив интернета (archive.org) — это сервис, на котором можно посмотреть старые версии веб-сайтов и страниц в социальных сетях (с 1996 года по настоящее время).

https://web.archive.org/web/20071115000000*/http://www.zen.yandex.ru
https://web.archive.org/web/20071115000000*/http://www.zen.yandex.ru

Количество сохранённых версий за разные даты у каждого сайта зависит от его популярности. У сервисов "Яндекса" их десятки тысяч, а у какого-нибудь регионального сайта по продаже пластиковых окон может быть 2-3 за все пять лет его существования.

Изучение старых версий сайтов компаний и страниц людей в соцсетях с помощью archive.org — частая практика при сборе информации о человеке и изучении его прошлого.

В статье "4 полезных функции Всемирного архива интернета" (ссылка внизу) было рассказано о некоторых интересных возможностях этого сервиса: просмотре списка всех сохранённых страниц сайта, просмотре email-адреса человека, который загрузил файл в архив, операторах для расширенного поиска.

Сегодня разберёмся как ускорить и автоматизировать работу со старыми версиями сайтов.

Автоматизация загрузки всех интересных нам версий страницы

https://github.com/jsvine/waybackpack
https://github.com/jsvine/waybackpack

Waybackpack — это инструмент для автоматизации скачивания разных версий сайтов с archive.org, исходный код которого выложен на Github на странице разработчика jsvine.

Для установки откройте командную строку и выполните следующую команду:

pip3 install waybackpack

Предварительно не забудьте убедиться, что на вашем компьютере установлена последняя версия Python.

MacOS Terminal
MacOS Terminal

Первый шаг — это проверка наличия во Всемирном архиве интернета сохраненных версий веб-страница и оценка их количества.

waybackpack http://litsey623.ru/ --list

Команда --list выдает полный список сохранённых версий сайта в хронологическом порядке (см. скрин выше).

Теперь, давайте попробуем скачать все версии главной страницы сайта школы 623, сохранённые в 2010 и 2011 годах.

MacOS Terminal
MacOS Terminal

waybackpack http://litsey623.ru/ -d ~/Downloads/litsey623 --from-date 2010 --to-date 2011

Команды --from-date и --to-date устанавливают границы временного интервала (даты записывается в форматы YYYYMMDDhhmmss (год, месяц, день, часы,минуты, секунды)).

MacOS Finder
MacOS Finder

В результате работы waybackpack на компьютере появится папка с подпапками, соответствующими разным датам сохранения страницы, внутри которых будут лежать файлы с веб-страницами.

Это позволит:

— максимально быстро просмотреть все версии (без торможений и "глюков" сайта web,archive.org)

— делать по ним автоматизированный поиск email-адресов, телефонных номеров, имен и ключевых слов.

Поиск по всем версиям страницы сразу

MacOS Finder
MacOS Finder

Открываем папку с версиями сайта, делаем поиск по расширению .html, выделяем все файлы и открываем их в каком-нибудь текстовом редакторе (либо открываем только файлы за определенный период).

Я буду использовать Sublime Text, но все описанное ниже можно повторить во многих других программах.

Sublime Text 3
Sublime Text 3

После этого в меню выбираем Find — Find in Files и набираем текст поискового запроса (например, телефонный код города Санкт-Петербурга, чтобы найти все городские номера телефонов).

Есть также вариант сразу открыть Sublime Text, выбрать меню Find - FInd in Files и в поле Where указать папку, по файлам которой нужно сделать поиск.

P.S. Про проблемы с кодировкой

Sublime Text 3
Sublime Text 3

Иногда случается, что некоторые html-файлы загружаются с "веб-архива" с неправильной кодировкой и русскоязычный текст в них не читается.

В этом случае надо определить какая именно эта кодировка с помощью онлайн-декодера (artlebedev.ru/decoder/ или cynosurex.com/Software/Text%20Encoding%20Detector/). А потом заново открыть файлы в нужной кодировке в текстовом редакторе, либо перекодировать их в UTF-8 с помощью командной строки и утилиты chcp.

4 полезных функции Всемирного архива интернета

Как узнать в какую московскую больницу попал человек, не обзванивая их

4 способа применить с пользой поисковики по публичным FTP-серверам