Всемирный архив интернета (archive.org) — это сервис, на котором можно посмотреть старые версии веб-сайтов и страниц в социальных сетях (с 1996 года по настоящее время).
Количество сохранённых версий за разные даты у каждого сайта зависит от его популярности. У сервисов "Яндекса" их десятки тысяч, а у какого-нибудь регионального сайта по продаже пластиковых окон может быть 2-3 за все пять лет его существования.
Изучение старых версий сайтов компаний и страниц людей в соцсетях с помощью archive.org — частая практика при сборе информации о человеке и изучении его прошлого.
В статье "4 полезных функции Всемирного архива интернета" (ссылка внизу) было рассказано о некоторых интересных возможностях этого сервиса: просмотре списка всех сохранённых страниц сайта, просмотре email-адреса человека, который загрузил файл в архив, операторах для расширенного поиска.
Сегодня разберёмся как ускорить и автоматизировать работу со старыми версиями сайтов.
Автоматизация загрузки всех интересных нам версий страницы
Waybackpack — это инструмент для автоматизации скачивания разных версий сайтов с archive.org, исходный код которого выложен на Github на странице разработчика jsvine.
Для установки откройте командную строку и выполните следующую команду:
pip3 install waybackpack
Предварительно не забудьте убедиться, что на вашем компьютере установлена последняя версия Python.
Первый шаг — это проверка наличия во Всемирном архиве интернета сохраненных версий веб-страница и оценка их количества.
waybackpack http://litsey623.ru/ --list
Команда --list выдает полный список сохранённых версий сайта в хронологическом порядке (см. скрин выше).
Теперь, давайте попробуем скачать все версии главной страницы сайта школы 623, сохранённые в 2010 и 2011 годах.
waybackpack http://litsey623.ru/ -d ~/Downloads/litsey623 --from-date 2010 --to-date 2011
Команды --from-date и --to-date устанавливают границы временного интервала (даты записывается в форматы YYYYMMDDhhmmss (год, месяц, день, часы,минуты, секунды)).
В результате работы waybackpack на компьютере появится папка с подпапками, соответствующими разным датам сохранения страницы, внутри которых будут лежать файлы с веб-страницами.
Это позволит:
— максимально быстро просмотреть все версии (без торможений и "глюков" сайта web,archive.org)
— делать по ним автоматизированный поиск email-адресов, телефонных номеров, имен и ключевых слов.
Поиск по всем версиям страницы сразу
Открываем папку с версиями сайта, делаем поиск по расширению .html, выделяем все файлы и открываем их в каком-нибудь текстовом редакторе (либо открываем только файлы за определенный период).
Я буду использовать Sublime Text, но все описанное ниже можно повторить во многих других программах.
После этого в меню выбираем Find — Find in Files и набираем текст поискового запроса (например, телефонный код города Санкт-Петербурга, чтобы найти все городские номера телефонов).
Есть также вариант сразу открыть Sublime Text, выбрать меню Find - FInd in Files и в поле Where указать папку, по файлам которой нужно сделать поиск.
P.S. Про проблемы с кодировкой
Иногда случается, что некоторые html-файлы загружаются с "веб-архива" с неправильной кодировкой и русскоязычный текст в них не читается.
В этом случае надо определить какая именно эта кодировка с помощью онлайн-декодера (artlebedev.ru/decoder/ или cynosurex.com/Software/Text%20Encoding%20Detector/). А потом заново открыть файлы в нужной кодировке в текстовом редакторе, либо перекодировать их в UTF-8 с помощью командной строки и утилиты chcp.
4 полезных функции Всемирного архива интернета
Как узнать в какую московскую больницу попал человек, не обзванивая их
4 способа применить с пользой поисковики по публичным FTP-серверам