这就是搜索引擎－笔试2

二、网络抓虫

网页页面划分为5个部分：

1、已下载

2、已过期

3、待下载

4、可知网页集合，未下载，但可索引

5、不可知网页集合，暗网网页

爬虫分三种类型：

1、批量型：有明确的抓取范围和目标，当达到这个目标后停止抓取

2、增量型：不断抓取，抓取到以后定期更新

3、垂直型：抓取特定行业网页

优秀爬虫的特性：高性能、可扩展（良好的并发性）、健壮性、友好性（遵守Robot协议）

评价爬虫质量的标准：覆盖率，时新性，重要性

抓取策略：优先选择重要网页进行抓取

1、宽度优先遍历策略，虽然机械，但是效果好，隐含了一些网页优秀级的假设

2、非完全PageRank策略，对已下载网页集合，加上待抓取URL，形成网页集合，进行PageRank计算，将待抓取按得分进行排序

3、OCIP策略，在线页面重要性计算，待下载页面都分配相同的cash，下载后把页面拥有的现金平分给包含的链接，

待抓取URL则根据手头现金排序，优先下载最充裕网页。计算速度快，适合实时计算，效果略优于宽度优先

4、大站优先策略，哪个网站等等下载的页面最多，则优先下载这些链接，效果略优于宽度优先

网页更新策略

1、历史参考策略，过去频繁更新的网页，将来也会频繁更新，利用泊松过程

抓取策略应该忽略掉广告或导航等非重要区域的频繁变化，集中在主题内容的变化探测和建模

2、用户体验策略，对搜索结果排名靠前，更新以后对搜索质量（排名）的影响较大的页面进行更新

3、聚类抽样策略，先对网页进行聚类，对同一类网页采用相同的更新频率

聚类特征：

静态特征，页面的内容，图片数量，页面大小，链接深度，PageRank值

动态特征，随着时间的变化，静态特征的变化情况

聚类抽样策略效果好于前述两种，但是对亿计网页进行聚类，难度较大

暗网抓取

将暗网数据从数据库中挖掘出来，百度的“阿拉丁”计划就是解决此问题

查询组合：Google提出富含信息查询模板技术，使用富含信息查询模板进行查询，获取有效的网页结果

富含信息查询模板：对于某固定的查询模板来说，如果给模板内每个属性都赋值，形成不同的查询组合，其返回内容差异较大，则这个查询模板为富含信息查询模板

分布式爬虫

主从分布式：URL服务器容易成为整个系统的瓶颈

对等分布式：没有URL服务器存在，每台抓取服务器的分工成为问题，对网址的主域名进行哈希计算，之后对m服务器数量取模，把计算后的模和抓取服务器号匹配

一致性哈希算法：将网站主域名进行哈希，映射到0~2^32之间某个数值，抓取服务器负责这个环状序列的一个片段的抓取，抓取内容由上一个服务器进行循环转发

posted on 2013-09-13 11:10 胡满超阅读(660) 评论(0) 编辑收藏引用所属分类: 搜索引擎

随笔分类(56)

只有注册用户登录后才能发表评论。


相关文章: 深入浅出LSH 这就是搜索引擎－笔试6-链接分析这就是搜索引擎－笔试5-检索模型与搜索排序这就是搜索引擎－笔试4-索引压缩这就是搜索引擎－笔试3-搜索引擎索引这就是搜索引擎－笔试2 这就是搜索引擎－笔试1 转: 怎样量化评价搜索引擎的结果质量

网站导航: 博客园博客园最新博文博问管理