wget
787 0
wget 命令爬取整个站点,可设置(伪造)Cookie、User-Agent 授权验证
netnr 2018-11-30
# 爬取站点
wget -c -r -npH -k -nv https://zme.ink/

# 参数说明
-c  # 断点续传
-r  # 递归下载
-np  # 递归下载时不搜索上层目录
-nv  # 显示简要信息
-nd  # 递归下载时不创建一层一层的目录,把所有文件下载当前文件夹中
-p  # 下载网页所需要的所有文件(图片,样式,js文件等)
-H  # 当递归时是转到外部主机下载图片或链接
-k  # 将绝对链接转换为相对链接,这样就可以在本地脱机浏览网页了
-L  # 只扩展相对连接,该参数对于抓取指定站点很有用,可以避免向宿主主机

# 设置Cookie
--header="Cookie: PHPSESSID=p4e51ihjf57ovvc9lui2abkvi0; first_vist=1;"

# 设置 User-Agent 为微信PC端
--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 NetType/WIFI MicroMessenger/7.0.20.1781(0x6700143B) WindowsWechat(0x63090c37) XWEB/14185 Flue"

# 伪造 Cookie、User-Agent 爬取
wget -c -r -npH -p -k -nv --header="Cookie: first_vist=1;"  --user-agent='Mozilla/5.0 (Windows NT 6.1; WOW64) ...' https://zme.ink/
登录写评论