wget如何下载其他域名上的资源

wget是个功能强大的下载工具,支持多种网络协议。如果有一个特别的需求就是保存一个网页,包含网页内引用的各种资源,比如css文件,js文件,图片等。如果在同一个域名下,就很好处理,如果不是在同一个域名下,就需要多添加几个参数。

同一个域名下的示例

# 通过参数 -p 就可以下载这个页面的所有资源文件,比如 css,js文件
wget -p https://www.shelljiaoben.com

wget下载不在同一个域名下的资源

# -H 允许下载其他域名下的资源
# --domains=aaa.com,bbb.com  可以下载的域名是aaa.com 和 bbb.com 这里是
#   这里说的域名必须是相等,不包含该域名下的二级域名
# -k 资源的地址,转换成本地的地址。这里有两种情况, 
#     第一:同一个域名下的,使用相对路径。 第二:不同域名下的也是修改成相对路径。
#     这样静态资源都统一到了同一个域名下面
# -e robots=off 不考虑robots.txt 文件,默认robots.txt 文件直接了爬行就不能抓取了。
wget -H -k -e robots=off  -p --domains=www.domain1.com,www.domain2.org  https://www.domain.com

发表评论

电子邮件地址不会被公开。 必填项已用*标注