随笔 - 89  文章 - 118  trackbacks - 0
<2013年9月>
25262728293031
1234567
891011121314
15161718192021
22232425262728
293012345

留言簿(16)

随笔分类(56)

随笔档案(89)

文章分类

推荐博客

搜索

  •  

最新随笔

最新评论

阅读排行榜

二、网络抓虫

网页页面划分为5个部分:
1、已下载
2、已过期
3、待下载
4、可知网页集合,未下载,但可索引
5、不可知网页集合,暗网网页
爬虫分三种类型:
1、批量型:有明确的抓取范围和目标,当达到这个目标后停止抓取
2、增量型:不断抓取,抓取到以后定期更新
3、垂直型:抓取特定行业网页
优秀爬虫的特性:高性能、可扩展(良好的并发性)、健壮性、友好性(遵守Robot协议)
评价爬虫质量的标准:覆盖率,时新性,重要性
 
抓取策略:优先选择重要网页进行抓取
1、宽度优先遍历策略,虽然机械,但是效果好,隐含了一些网页优秀级的假设
2、非完全PageRank策略,对已下载网页集合,加上待抓取URL,形成网页集合,进行PageRank计算,将待抓取按得分进行排序
3、OCIP策略,在线页面重要性计算,待下载页面都分配相同的cash,下载后把页面拥有的现金平分给包含的链接,
待抓取URL则根据手头现金排序,优先下载最充裕网页。计算速度快,适合实时计算,效果略优于宽度优先
4、大站优先策略,哪个网站等等下载的页面最多,则优先下载这些链接,效果略优于宽度优先

网页更新策略
1、历史参考策略,过去频繁更新的网页,将来也会频繁更新,利用泊松过程
抓取策略应该忽略掉广告或导航等非重要区域的频繁变化,集中在主题内容的变化探测和建模
2、用户体验策略,对搜索结果排名靠前,更新以后对搜索质量(排名)的影响较大的页面进行更新
3、聚类抽样策略,先对网页进行聚类,对同一类网页采用相同的更新频率
聚类特征:
静态特征,页面的内容,图片数量,页面大小,链接深度,PageRank值
动态特征,随着时间的变化 ,静态特征的变化情况
聚类抽样策略效果好于前述两种,但是对亿计网页进行聚类,难度较大

暗网抓取
将暗网数据从数据库中挖掘出来,百度的“阿拉丁”计划就是解决此问题
查询组合:Google提出富含信息查询模板技术,使用富含信息查询模板进行查询,获取有效的网页结果
富含信息查询模板:对于某固定的查询模板来说,如果给模板内每个属性都赋值,形成不同的查询组合,其返回内容差异较大,则这个查询模板为富含信息查询模板

分布式爬虫
主从分布式:URL服务器容易成为整个系统的瓶颈
对等分布式:没有URL服务器存在,每台抓取服务器的分工成为问题,对网址的主域名进行哈希计算,之后对m服务器数量取模,把计算后的模和抓取服务器号匹配
一致性哈希算法:将网站主域名进行哈希,映射到0~2^32之间某个数值,抓取服务器负责这个环状序列的一个片段的抓取,抓取内容由上一个服务器进行循环转发
posted on 2013-09-13 11:10 胡满超 阅读(534) 评论(0)  编辑 收藏 引用 所属分类: 搜索引擎

只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理