inwind

posts - 12, comments - 4, trackbacks - 0, articles - 36

唉，越看越琐碎

Posted on 2005-12-07 12:02 inwind 阅读(328) 评论(0) 编辑收藏引用所属分类: 随想

网页的自动分类，需要考虑的东西很多啊。

分类体系的选择，利用DDC还是中图？还是借鉴yahoo或者google的分类体系？分类层次有多深？

训练文集的选取？哪里来呢，那么多打好标记，并且其分类要与我们的分类相同或者，相似吧

刚开始网页的内容处理，表示，是否考虑超链接，是否考虑html，如何剔出乱其八糟的广告？

网页向量化，又有那么多种权值计算方法，经典的就五个了，还有改进的，估计也有那么五六个比较好的吧？

向量的降维，还好那位帅哥整理过5经典的算法，再加上后来北大那帮人做的实验，经典的几个里面的性能大多清楚了。可是，是不是还有改进的呢？特征提取算法和后面的分类算法组合后的性能参数呢？

ok，然后是分类算法，姑且考虑KNN，还要考虑KNN的参数，K=？，文档之间的距离的计算，文档-类得分的的加权？如何加权？——还有其他的算法呢？

分类完了，还有截取算法，某个文档可以属于哪些类？某个类可以包含哪些文档？这个怎么确定？RCut，PCut还是SCut，还有其他的改进算法吗？

最有，贪心算法在这里面能起作用吗？即每一步，都利用别人的实验，选择最好的算法，可是综合起来，就一定是全局最好的算法吗？

只有注册用户登录后才能发表评论。


相关文章: 受教了！今天发热，哈哈唉，越看越琐碎 kafulee在科大的演讲

网站导航: 博客园博客园最新博文博问管理

inwind

导航

常用链接

留言簿(1)

随笔分类

随笔档案

文章分类

文章档案

收藏夹

C++

Linux

数据挖掘与文本分类

搜索引擎

搜索

最新评论

阅读排行榜

评论排行榜

唉，越看越琐碎