预处理主要就是建立两个索引(1)网页索引(通过URL知道网页保存在本地哪里)
(2)对网页内容进行分词然后建立倒排索引
分词的方法:
(1)基本的词典(中文比英文复杂多了,英文有空格来区分词语)
(2)使用字符串匹配(正向最大匹配,逆向最大匹配,最少切分),一般使用逆向最大匹配.(3)使用统计的方式来确定新词,即相邻的字共现的频率越大,越有可能是新词
建立倒排索引:(1)分析网页,去除html标签,提取正文信息(2)分词,然后以词为索引建立倒排文件.
Copyright @ merlinfang Powered by: .Text and ASP.NET Theme by: .NET Monster