wget
433 0
wget 命令爬取整个站点,可设置(伪造)Cookie、User-Agent 授权验证
netnr 2018-11-30
# 爬取站点
wget -c -r -npH -k -nv https://zme.ink/

# 参数说明
-c  # 断点续传
-r  # 递归下载
-np  # 递归下载时不搜索上层目录
-nv  # 显示简要信息
-nd  # 递归下载时不创建一层一层的目录,把所有文件下载当前文件夹中
-p  # 下载网页所需要的所有文件(图片,样式,js文件等)
-H  # 当递归时是转到外部主机下载图片或链接
-k  # 将绝对链接转换为相对链接,这样就可以在本地脱机浏览网页了
-L  # 只扩展相对连接,该参数对于抓取指定站点很有用,可以避免向宿主主机

# 设置Cookie
--header="Cookie: PHPSESSID=p4e51ihjf57ovvc9lui2abkvi0; first_vist=1;"

# 设置 User-Agent 为微信PC端
--user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.901.400 QQBrowser/9.0.2524.400"

# 伪造 Cookie、User-Agent 爬取
wget -c -r -npH -p -k -nv --header="Cookie: first_vist=1;"  --user-agent='Mozilla/5.0 (Windows NT 6.1; WOW64) ...' https://netnr.eu.org/

# help
https://www.cnblogs.com/LyShark/p/9063328.html
登录写评论