| 
 | 
 
 
发表于 2015/11/19 10:39
|
显示全部楼层
|阅读模式
| Mozilla 11.0 | Windows 7  
 
 
 
 本帖最后由 无情 于 2015/11/19 10:40 编辑  
 
一.目的 
首先,我们要明确,蜘蛛爬虫的目的是什么?每天网上都会更新大量的咨询,爬虫就是将这些网站、应用的精华部分提取出来。就内容的形式而言,文本结构化和非文本结构化是比较常见的两种形式。 
1.非文本结构化 
1.1 HTML文本 
目前主流的文本信息,大部分都基于此。其实它理应属于结构化文本,但是因为搜索引擎在提取内容的时候需要解析它的内部语言,甚至某些字符串才能得到结果,所以还是将其归类为非文本结构化信息。 
列举一些常见的解析方式: 
.CSS 
  
这是TX首页财经部分的代码,一目了然,是用CSS来排版的。这也是目前主流的网页布局语言,里面id=finance,为了获取这块代码的内容,我们将finance标记为“#finance”,就得到了这块的HTML代码。用这种方法也可以获得其他内容。 
.XPATH 
  
利用chrome浏览器,基于XPATH的路径选择方法,可以快速得到所需内容,如图。 
.正则表达式 
在碰到小片段文本、字符串、或者是包含JS代码,就需要使用到这种方法,通过标准正则解析,用指定的格式匹配相关文本,一般适用于纯文本信息,可以很好的获取到有用的纯文本信息。 
.字符串分隔 
不建议经常使用,这个方法跟正则表达式差不多,因为比较偷懒。 
1.2 一段文本 
对于纯文本信息,我们也是需要提取其中有用的内容,例如一篇文章或者是一段简短的文字,如果是滞后处理,我们可以先把这些信息存储,如果需要实时提取的,可以使用以下方式处理: 
.分词 
将抓取到的文本信息进行分段分析,获取关键语句后进行分词处理,然后进行分词统计,类似于向量的表达方式。 
.NLP 
NLP的意思是词义分析,将获取到的文本信息用正负面的结果形式表示出来。 
原文来自:码农谷——专业的在线编程和软件教育平台http://www.manonggu.com |   
 
 
 
 |