随笔 - 78  文章 - 58  trackbacks - 0
<2008年3月>
2425262728291
2345678
9101112131415
16171819202122
23242526272829
303112345

常用链接

留言簿(9)

随笔分类

随笔档案

文章档案

相册

搜索

  •  

积分与排名

  • 积分 - 265072
  • 排名 - 85

最新评论

阅读排行榜

评论排行榜

预处理主要就是建立两个索引
(1)网页索引(通过URL知道网页保存在本地哪里)

(2)对网页内容进行分词然后建立倒排索引


分词的方法:

(1)基本的词典(中文比英文复杂多了,英文有空格来区分词语)

(2)使用字符串匹配(正向最大匹配,逆向最大匹配,最少切分),一般使用逆向最大匹配.
(3)使用统计的方式来确定新词,即相邻的字共现的频率越大,越有可能是新词


建立倒排索引:
(1)分析网页,去除html标签,提取正文信息
(2)分词,然后以词为索引建立倒排文件.


 

 

 

posted on 2008-03-05 23:10 merlinfang 阅读(612) 评论(0)  编辑 收藏 引用 所属分类: 搜索引擎

只有注册用户登录后才能发表评论。
【推荐】超50万行VC++源码: 大型组态工控、电力仿真CAD与GIS源码库
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理