小樱 发表于 2024/4/19 21:00

亚马逊又不是搜索引擎,为什么有爬虫Amazonbot?堪称ddos网站服务器

亚马逊又不是搜索引擎,为什么有爬虫Amazonbot?堪称ddos网站服务器

30M宽带拉满,通过验证发现是爬虫


相关页面
https://developer.amazon.com/zh/amazonbot

已知相关UA
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

相关ip,不完整仅选取部分
3.224.220.101
18.209.137.234
23.22.35.162
34.193.2.57
34.195.248.30
52.70.240.171
54.235.125.129
100.29.160.53
184.73.239.35
35.171.117.160


这爬虫有够猛的,感觉可以禁止掉对方访问,,,因为亚马逊根本没搜索引擎功能

主要cf有毒,访问一次100MB的文件,下载了5%进度,没下载完成直接断开,也要全量回源100MB流量

2025年4月20日帖子补充
这亚马逊爬虫几天前突然换ua了,又被爬了几百G流量,干脆关键字Amazonbot屏蔽他
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot) Chrome/119.0.6045.214 Safari/537.36
他又不是爬虫,堪称ddos,收到流量不足通知才发现,还好明天就重置流量了,而且他这种换ua的做法,明显就是爬虫不应该有的行为

还有个莫名其妙的爬虫是SemrushBot,不知道谁家的不过它爬的流量不多,要不然一起屏蔽了
Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)

最近又多了个爬虫固定ip地址为 20.171.207.173 看起来肯定不是官方的,是伪造的爬虫ua
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptbot)

Github 发表于 2024/4/20 06:53

新 AI 机器人?估计是

Mu辛 发表于 2024/4/20 14:00

{:3338:}

ipaapk 发表于 2024/4/22 12:39

我也觉得是AI在学习数据
页: [1]
查看完整版本: 亚马逊又不是搜索引擎,为什么有爬虫Amazonbot?堪称ddos网站服务器