Найти в Дзене
Вокруг IT

Шпаргалка по параметрам wget: не скачиваем лишнего

wget — утилита Linux для загрузки файлов по протоколам HTTP, HTTPS и FTP. За что разработчики любят wget — возможность скачивать целые сайты, создавать их зеркала. Я сам использую эту возможность для последующего анализа текстов (natural language processing).
Это очень гибкая утилита с большим количеством параметров. Здесь я собрал те, которыми сам пользуюсь. Обратите внимание на разный регистр

wget — утилита Linux для загрузки файлов по протоколам HTTP, HTTPS и FTP. За что разработчики любят wget — возможность скачивать целые сайты, создавать их зеркала. Я сам использую эту возможность для последующего анализа текстов (natural language processing).

Это очень гибкая утилита с большим количеством параметров. Здесь я собрал те, которыми сам пользуюсь. Обратите внимание на разный регистр символов:

  • -b — перейти после запуска в фоновый режим
  • -q — выключить сообщения wget
  • -t number — число попыток обращения к ссылке
  • -nc — продолжение загрузки при разрыве связи
  • -nd — не создавать структуру каталогов, файлы с аналогичными названиями будут пронумерованы
  • -E — добавить расширение html для страниц при его отсутствии
  • -r — рекурсивная загрузка — wget будет переходить по ссылкам на странице и забирать соответствующие страницы, потом просматривать эти страницы, и так далее
  • -l depth — максимальная глубина рекурсивной загрузки
  • -k — после завершения загрузки wget будет конвертировать ссылки для просмотра в автономном режиме
  • -p —загружать все файлы, необходиые для отображения страницы
  • -m — параметр для зеркального хранения сайтов
  • -L — следовать только по относительным ссылкам, без переходов на другие домены
  • -np — не подниматься выше начального адреса при рекурсивной загрузке