HTTrack介绍爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具。它允许您从Internet上下载万维网站点到本地目录,递归地构建所有目录,从服务器获取HTML,图像和其他文件到您的计算机。HTTrack安排原始网站的相关链接结构。只需在浏览器中打开“镜像”网站的页面,即可从链接到链接浏览网站,就像在线查看网站一样。HTTrack也可以更新现有的镜像站点,并恢复中断的下载。HTTrack完全可配置,并具有集成的帮助系统。
HTTrack使用1.先创建一个目录,用来保存爬下来的网页和数据
2.打开Httrack
3.给项目命名
4.保存到哪个目录
5.网站的url
6. Action: (enter) 1 Mirror Web Site(s) 2 Mirror Web Site(s) with Wizard 3 Just Get Files Indicated 4 Mirror ALL links in URLs (Multiple Mirror) 5 Test Links In URLs (Bookmark Test)
//1:直接镜像站点
7.是否使用代理
8.你可以定义一些字符,用来爬特定类型的数据,我们全部类型数据都爬得话,设置*
9.设置更多选项,使用help可以看到更多选项,我们默认,直接Enter
10.开始爬站
11.查看结果 | ||||||||||
![]() 友情提醒:以上链接来自互联网,请注意风险! | ||||||||||
标签: HTTrack 镜像 网站 链接 目录 使用 Mirror 可以 root 递归 出处: https://www.cnblogs.com/-wenli/p/9911881.html |