8 месяцев назад
Инструмент для анализа сайтов в интернет-архиве Wayback Machine (web.archive.org)
Нашел на просторах интернета интересный инструмент - анализатор данных Internet Archive, который обеспечивает комплексный анализ и визуализацию исторической эволюции сайтов, предлагая ценную информацию об их структурных изменениях и производительности с течением времени на основе возможностей сервера Wayback Machine. Извлечение URL - Эффективно извлекает все архивные URL-адреса для указанного домена из интернет-архива Wayback Machine. Визуализация структуры папок - Динамически отображает эволюцию структуры папок сайта с течением времени...
Архивы интернета Все знают главный архив интернета – web.archive.org. Цель сервиса – сохранить вид всей мировой сети в каждый момент времени. Идеально эту задачу решить невозможно, но web.archive к этому стремится. Главную страницу Гугла он сохранил 13 миллионов раз, главную страницу моего блога – 126 раз. Чего многие не знают, у интернета есть и второй архив – #стартапдня archive.today с меньшей, но сопоставимой посещаемостью. Его модель гораздо практичнее и, видимо, на много порядков дешевле, чем модель web.archive. Он сохраняет не всё подряд постоянно, а только то, что пользователь просит и только в тот момент, когда он просит. Понравился мне именно сегодняшний вид того же Google – иду на сайт, нажимаю кнопку, – всё, страница ушла в вечность, каждый сможет в будущем её посмотреть. Любопытный побочный эффект: archive.today иногда работает, как средство халявного просмотра платного контента. Мне этот фокус показали на Business Insider, я проверил случайную статью на Financial Times – да, стартап отлично показал полный текст. Сервера газет думали, что общаются с поисковым роботом, а для них секретов нет, СМИ хотят индексироваться по максимуму. Хочется сказать, что в этом и есть секрет популярности стартапа, но похоже, что нет. С того же Financial Times он индексировал всего 2000 статей за всю историю, это совсем немного на фоне десятков миллионов визитов на archive.today каждый месяц. Не знаю, что обычные посетители там делают. Личные сайты сохраняют? Зачем?... Archive.today делается одним энтузиастом. Зарабатывает он донатами и, видимо, не окупает хостинг, но уверенно пишет – деньги есть, работать будем, убыток есть кому закрыть. И больше десяти лет действительно уже работает. https://archive.ph/ #контент #насвои —— https://dzen.ru/id/5ed7cb1795ca8f588de80f92 — рассказ о новом стартапе каждый день. Кратко и без воды.