posts - 7, comments - 64, trackbacks - 0

大学毕业了！！上来感叹一下！并拿出自己的毕业设计分享一下。
这个小东西是用了一个星期完成的。BUG肯定不少，大家凑合着看一下吧。感觉有趣的就拿去玩玩。
说说基本思路。
1.对文件进行分词处理
2.通过统计训练文档当中的词频方差，构造评判矩阵
3.之后在构造待分类文档的评判向量
4.用评判向量和构造矩阵相乘，选出最接近的分类。
具体地方法大家可以参考一下这篇论文：《基于模糊理论的网页过滤算法的实现》
上图：

主界面

结果文件

训练文档的目录结构

程序文件：
http://www.namipan.com/d/db9717e2153a1bc504dc597fee9ac32e92b428fcc4fe3900

其实正确率还可以进一步提高的。以后有兴趣的时候再来重写一下这个程序吧。

总结：
我尽力优化了这个程序的速度。但还是不理想。
ICTCLAS分词系统的效率低是其中一个重要原因。
我使用了stlsoft中的aoto_buffer来优化内存的分配。
使所有的string在内存当中只存在一份拷贝。
map和vector容器永远只存放string*

无法解决的问题：
我想在一个double数组中存放1/N,2/N,3/N......N/N，以便后来使用。
我觉得这些常量应当能在编译时期确定。但是不知道如何通过定义宏来表示这些数值。
搞的我最后不得不启动一个线程来专门计算这些值。

有兴趣的邮件联系啊~！

posted on 2009-06-12 21:38 HIT@ME 阅读(1478) 评论(2) 编辑收藏引用

FeedBack:

# re: 非法信息识别系统

2009-06-12 23:27 | unnamed

还以为是源代码，结果是执行程序。回复更多评论

# re: 非法信息识别系统

2009-06-13 07:18 | YZY

double数组既然是静态的为什么还要用一个线程来计算这些值啊？
直接计算或者从文本文件中读取不就可以了？回复更多评论

刷新评论列表

只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理

2009年6月

日

一

二

三

四

五

六

常用链接

留言簿(5)

随笔档案

test

搜索

最新评论

阅读排行榜

评论排行榜