蓝色理想

  C++博客 :: 首页 :: 联系 :: 聚合  :: 管理
  37 Posts :: 1 Stories :: 28 Comments :: 0 Trackbacks

网络上关于增量搜集网页的资料比较少,可能还不成熟的原因。
偶有所感啊。。。。

获取url之后,存放在visittable中,并保存本次的指纹信息。

需要根据它的重要程度,初步估算一个搜集间隔。
当到达下次搜集时间,则搜集它,这个时候,根据上下两次的

指纹,判断是否有网页是否有变化,以调整搜集间隔。
举例:第一次间隔10天,10天后搜集发现有变化,则调整间隔为5天。 

5天后搜集发现无变化,则调整间隔为7.5天,以得到一个差不多的值。

网站的重要程度也是一个方面,比如专门搜索mp3的搜索引擎,可以把
根本没有mp3的网站列入无效网站,把mp3较多的网站列为专业网站,
缩小搜索间隔。

visittable表结构:

URLCode URL nextTime interval preInterval finger

posted on 2008-05-22 22:23 merlinfang 阅读(72) 评论(0)  编辑 收藏 引用 所属分类: 搜索引擎

标题  
姓名  
主页
验证码 *
内容(提交失败后,可以通过“恢复上次提交”恢复刚刚提交的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
[使用Ctrl+Enter键可以直接提交]
相关链接:
网站导航: