「httrack」

认识

HTTrack,用于将 web 站点复制到本地,离线浏览器工具。其是个离线浏览器实用工具,可将 Web 站点下载到本地目录,并递归构建所有目录,从服务器获取 html、图像、其他文件到计算机中。

组成

安装的可执行程序

httrack,主程序文件,复制站点到本地。

httrack

httrack,复制某个站点到本地。

命令简述(DESCRIPTION)

  • httrack 用于将线上网站下载到本地目录,递归构建所有目录,从服务器获取 HTML、图像、其他文件到计算机中。
  • HTTrack 安置原始站点的相对链接结构,所以只需在浏览器中打开一个“镜像”网页,然后可以从链接到链接来浏览网站,就像在线查看一样。
  • HTTrack 还可以更新现有的镜像站点,并恢复中断的下载。

性质

HTTrack 按原始站点的相对链接结构进行组织。只需在浏览器中打开“镜像”中的一个网页,就可以从链接到链接浏览网站,就像在线查看一样。HTTrack 还可以更新现有的镜像站点,恢复中断的下载。

HTTrack 是完全可配置的,并具有集成的帮助系统。

构建

从发行版的源中安装

#!/bin/bash

# Kali GNU/Linux Rolling
apt-get install httrack

使用源码编译安装
参考源码目录下的 INSTALL 文件。

应用

httrack www.someweb.com/bob/
复制 www.someweb.com/bob/,而且只复制该站点。

httrack www.someweb.com/bob/ www.anothertest.com/mike/ +*.com/*.jpg -mime:application/*
将两个站点(使用共享链接)一起镜像,并保存所有出现在.com 的站点上的.jpg 文件。

httrack www.someweb.com/bob/bobby.html +* -r6
从 bobby.html 开始,获取所有的文件,连接深度为 6,有可能到达网站的所有地方。

httrack www.someweb.com/bob/bobby.html --spider -P proxy.myhost.com:8080
在指定的站点上运行 Spider,并使用代理。

httrack --update
更新当前目录中的镜像。

httrack
进入交互模式,然后填写相关的参数。

httrack --continue
在当前目录中,继续对网址进行镜像复制。

参考