小樱 发表于 2023/5/8 07:49

利用bat批处理curl实现cmd命令行自动保存网站页面内容 archive世界图书馆快照爬虫

利用bat批处理curl实现cmd命令行自动保存网站页面内容 archive世界图书馆快照爬虫

curl保存命令
curl -k https://web.archive.org/save/https://bbs.itzmx.com/thread-102995-1-1.html

浏览器上手动保存页面
https://web.archive.org/save/https://bbs.itzmx.com/thread-102995-1-1.html

查看最新页面
https://web.archive.org/https://bbs.itzmx.com/thread-102995-1-1.html

查看历史保存页面
https://web.archive.org/*/https://bbs.itzmx.com/thread-102995-1-1.html

bat命令,要一次性保存多个页面就根据代码改写,以后执行bat就可以捕获最新的页面,archive限制每个ip1分钟内最多保存3个页面(输出 already reached the limit),同一个页面每隔45分钟保存一次(45分钟内二次保存不计算限制次数),每天同一个页面最多保存10次,国内ip无法访问archive
@echo off
ping /n 5 127.1>nul
echo 保存中,预计10秒,请稍候……
curl -k --connect-timeout 3 -m 10 https://web.archive.org/save/https://bbs.itzmx.com/thread-102995-1-1.html
echo 保存成功
pause

页: [1]
查看完整版本: 利用bat批处理curl实现cmd命令行自动保存网站页面内容 archive世界图书馆快照爬虫