随笔 - 78  文章 - 58  trackbacks - 0
<2008年5月>
27282930123
45678910
11121314151617
18192021222324
25262728293031
1234567

常用链接

留言簿(9)

随笔分类

随笔档案

文章档案

相册

搜索

  •  

积分与排名

  • 积分 - 264380
  • 排名 - 85

最新评论

阅读排行榜

评论排行榜

网络上关于增量搜集网页的资料比较少,可能还不成熟的原因。
偶有所感啊。。。。

获取url之后,存放在visittable中,并保存本次的指纹信息。

需要根据它的重要程度,初步估算一个搜集间隔。
当到达下次搜集时间,则搜集它,这个时候,根据上下两次的

指纹,判断是否有网页是否有变化,以调整搜集间隔。
举例:第一次间隔10天,10天后搜集发现有变化,则调整间隔为5天。 

5天后搜集发现无变化,则调整间隔为7.5天,以得到一个差不多的值。

网站的重要程度也是一个方面,比如专门搜索mp3的搜索引擎,可以把
根本没有mp3的网站列入无效网站,把mp3较多的网站列为专业网站,
缩小搜索间隔。

visittable表结构:

URLCode URL nextTime interval preInterval finger

posted on 2008-05-22 22:23 merlinfang 阅读(278) 评论(0)  编辑 收藏 引用 所属分类: 搜索引擎

只有注册用户登录后才能发表评论。
【推荐】超50万行VC++源码: 大型组态工控、电力仿真CAD与GIS源码库
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理