搜索引擎-网页搜集(1)

最新研究搜索引擎了，做点笔记。

搜索引擎一般分为三个模块: 网页搜集、预处理和查询服务。

网页搜集是事先搜集的，在查询的时候再去搜集明显不可能了。而事先搜集又分为定期搜集和增量搜集。定期搜集是个全量的搜集过程，往往更新一次需要很长的时间，基本也不时新了，但是实现无疑要简单点；增量搜集除第一次是全量的外，后续做的就是更新了（包括新增网页，删除过期的，以及更新），实现上要复杂的多。现实上这两种也是相辅相成的，如新闻的搜索要及时更新，但某些学术网站就很少更新了。

网页搜集要解决的问题：
（1）各种类型的网页（html、asp、javascript），各种语种(ascii, utf-8)

（2）网络资源的多样化（文件，图片，文档，音频，视频 etc.）
（3）搜索策略（深度优先，广度优先）
（4）并发搜集（避免对同一站点同一时刻的大量访问，不然就变成Dos攻击了）

（5）避免重复搜集
记录未访问、已访问URL和网页内容摘要信息

域名与IP的对应问题
（6）判断网页的重要程度

         1) 网页的入度大，表明被其他网页引用的次数多；
         2) 某网页的父网页入度大；
         3) 网页的镜像度高，说明网页内容比较热门，从而显得重要；
         4) 网页的目录深度小，易于用户浏览到。

posted on 2008-03-04 21:52 merlinfang 阅读(676) 评论(2) 编辑收藏引用所属分类: 搜索引擎

常用链接

留言簿(9)

随笔分类

随笔档案

文章档案

相册

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

只有注册用户登录后才能发表评论。


相关文章: url格式规范增量搜集网页净化搜索引擎-网页预处理(2) 搜索引擎-网页搜集(1)

网站导航: 博客园博客园最新博文博问管理