认识
- 官网:http://www.httrack.com
- 文档:http://www.httrack.com/html/index.html
- 仓库:https://github.com/xroche/httrack
HTTrack,用于将 web 站点复制到本地,离线浏览器工具。其是个离线浏览器实用工具,可将 Web 站点下载到本地目录,并递归构建所有目录,从服务器获取 html、图像、其他文件到计算机中。
组成
安装的可执行程序
httrack,主程序文件,复制站点到本地。
httrack
httrack,复制某个站点到本地。
命令简述(DESCRIPTION)
- httrack 用于将线上网站下载到本地目录,递归构建所有目录,从服务器获取 HTML、图像、其他文件到计算机中。
- HTTrack 安置原始站点的相对链接结构,所以只需在浏览器中打开一个“镜像”网页,然后可以从链接到链接来浏览网站,就像在线查看一样。
- HTTrack 还可以更新现有的镜像站点,并恢复中断的下载。
性质
HTTrack 按原始站点的相对链接结构进行组织。只需在浏览器中打开“镜像”中的一个网页,就可以从链接到链接浏览网站,就像在线查看一样。HTTrack 还可以更新现有的镜像站点,恢复中断的下载。
HTTrack 是完全可配置的,并具有集成的帮助系统。
构建
从发行版的源中安装
#!/bin/bash # Kali GNU/Linux Rolling apt-get install httrack
使用源码编译安装
参考源码目录下的 INSTALL 文件。
应用
httrack www.someweb.com/bob/ 复制 www.someweb.com/bob/,而且只复制该站点。 httrack www.someweb.com/bob/ www.anothertest.com/mike/ +*.com/*.jpg -mime:application/* 将两个站点(使用共享链接)一起镜像,并保存所有出现在.com 的站点上的.jpg 文件。 httrack www.someweb.com/bob/bobby.html +* -r6 从 bobby.html 开始,获取所有的文件,连接深度为 6,有可能到达网站的所有地方。 httrack www.someweb.com/bob/bobby.html --spider -P proxy.myhost.com:8080 在指定的站点上运行 Spider,并使用代理。 httrack --update 更新当前目录中的镜像。 httrack 进入交互模式,然后填写相关的参数。 httrack --continue 在当前目录中,继续对网址进行镜像复制。