设为首页收藏本站

ZMX - IT技术交流论坛 - 无限Perfect,追求梦想 - itzmx.com

 找回密码
 注册论坛

QQ登录

只需一步,快速开始

新浪微博账号登陆

只需一步,快速开始

用百度帐号登录

只需两步,快速登录

搜索
查看: 1735|回复: 0

爬虫搜索基础篇(三)

[复制链接]

签到天数: 5 天

[LV.2]偶尔看看I

发表于 2015/11/23 15:59 | 显示全部楼层 |阅读模式 |Mozilla 11.0|Windows 7
天涯海角搜一下: 百度 谷歌 360 搜狗 有道 雅虎 必应 即刻
2.App内容
现在的网络资源同时可以在电脑和手机上搜索到,尤其是App的盛行,更加方便了爬虫的搜索。因为只需要抓取一下API就行。如果是解构文本信息,又同时可以在电脑和手机端上截取,抓取APP是最佳选择。
抓包主要运用于获取App数据,把PC和手机设置同一个局域网内,在电脑上安装好抓包软件,把ip地址记录下来,在手机的网络地址里设置代理,再打开手机的App进行操作,如果有数据发送请求,就会被抓包软件截取记录。
三.了解网络请求
如何发送正确的请求是很重要的,这里面包括如何正确避免网页的限制、如何正确地接受数据,如果请求发送错误,是无法完成操作的。这里要详细的说一下请求的操作和模拟请求。
其实爬虫并不神秘深奥,它就是一次次地HTTP请求,无论是网页还是App,只要找到合适的链接或者API,丢一个请求包过去,得到的返回包就是它说截取到的数据了,综合来说有一下几点:
http://www.manonggu.com/UploadFile/UeImg/ArticleImg/20151117/6358337576433175354273570.png
抓包最主要是把URL搞明白才行,发请求过去,找到Headers里面的内容,这里是问题出的最多的地方,一般来说用户代理, 推荐信息, 浏览器缓存和身份验证是最常限制的几个字段。
请求的内容一般都是把主键值进行urlencode,很多人发现返回的数据为什么是空的,如果URL和请求方法都没错的话,这里面的原因主要有以下几个方面:

在请求分析的时候,观察第五个返回有没有被限制或者重定向,主要是把1-4点和模拟请求吃透彻。
原文来自:码农谷——专业的在线编程和软件教育平台http://www.manonggu.com
[发帖际遇]: 无情 乐于助人,奖励 9 贡献. 幸运榜 / 衰神榜
欢迎光临IT技术交流论坛:http://bbs.itzmx.com/
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册论坛 新浪微博账号登陆用百度帐号登录

本版积分规则

手机版|Archiver|Mail me|网站地图|IT技术交流论坛 ( 闽ICP备13013206号-7 )

GMT+8, 2024/11/19 17:38 , Processed in 0.193830 second(s), 22 queries , MemCache On.

Powered by itzmx! X3.4

© 2011- sakura

快速回复 返回顶部 返回列表