尼克舅姑

Nick9Gu

2009年10月8日

使用的就是mitchell的那本ML中关于naive bayesian classifier讲解用到的数据。20个邮件组的邮件,共约20000条记录。

主要是实践了下naive bayesian classifier。做了两个集合的实验,包括全集和书中实践的小集合(3个特定的邮件组集合)。
全集上最后的准确率可以达到83.7%。而使用小集合对比书中的(89%-90.5%),可以达到91.3%的准确率。

其中有一些需要注意的:
1. 对低频概率的光滑操作很重要。主要用于计算P(w|g)时在w频次很低的情况下。
   如果没有光滑,答案整个就被误差毁了,直接准确率掉到20%以下。
   如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words_in_g))可以保证结果达到预期水平
   如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words))结果还更好些。这似乎和预期不是很符合。
2. 对stopword的选取。
   使用idf作为选择标准(不取log)。刚开始选定的覆盖文章范围在0.6才去除。后来发现一直到1/12都能保证单调递增。效果不错。
3. 既然bayesian是逆概,还尝试了正向概率计算求答案,也是使之相互独立。准确率在75%左右。怀疑是模型本身并不是reasonable的。(就是比naive bayesian还不靠谱)

从误分类的数据来看,有些确实是无法很好分类。同时后续改进还有这么一些方法:
1. 低频词的影响。
2. 调整模型,使之更好去识别。这在看论文。看看是否可行。

同时今天还看了一篇介绍bayesian的一些应用之处的文章。讲的很广泛,把很多知识都串一起了。很好!



posted @ 2009-10-08 00:30 Nick9Gu 阅读(2027) | 评论 (4)编辑 收藏

2009年6月14日

Finding the k shortest paths, D Eppstein

这篇论文不错。方法很好,但是我觉得读的有点拗口。
说几个重点nb的吧。
1. 能够将路径用最短路径树和“弯路”表示
2. 考虑到路径的层次结构。
如果考虑到以上两点会有很多启发的,之后还有几个nb的:
3. 把堆表示在dag上。
4. 这个最最nb,很容易考虑到每次找到一个最小后缀,然后更新堆,但这样复杂度就是nm的。而其通过将每个点的后缀重新组织成一个小堆。就控制住复杂度了!

这篇论文之前比赛的时候就很想看,后来搞输入法的时候又听说了,还是没时间看。今天花了一下午看了还是挺开心的。不过觉得他有的地方方法有些冗余或者说不是很优,什么时候再细细想想。今天好困。。。

posted @ 2009-06-14 22:44 Nick9Gu 阅读(438) | 评论 (0)编辑 收藏

2009年6月6日

最大概率分词问题及其解法,hit的刘挺等,1998

这篇文章前面给出的一些模型对我这个新手来说不错。后面对问题的解决一般。
第一个问题是找分割点,这个很简单,在找到每个点的最远距离后,O(n)扫一遍就可以了。
第二个问题是每个字段内的最优概率计算。这个如果按原有的概率算比较难,n-gram的n不确定,不过他这里用的是unigram
这样就简单多了。。取log以后最短路,dp啥的爱咋搞咋搞。


posted @ 2009-06-06 12:00 Nick9Gu 阅读(1594) | 评论 (5)编辑 收藏

2008年11月7日

最近越来越懒了。。做题有头没尾的,贴个报告。德黑兰2005的。还差一道题。

2894 Ancient Keyboard 858 Tehran 2005
2895 Best SMS to Type 909 Tehran 2005
2896 Changing Phone Numbers 98 Tehran 2005
2897 Dramatic Multiplications 614 Tehran 2005
2898 Entertainment 230 Tehran 2005
2899 Fortune at El Dorado 105 Tehran 2005
2900 Griddy Hobby 94 Tehran 2005
2901 Hotel 70 Tehran 2005
2902 Intercepting Missiles 31 Tehran 2005
  2903 Joy of Mobile Routing 15 Tehran 2005


http://docs.google.com/Doc?id=dhc6v8gg_126gmw86hgd

posted @ 2008-11-07 16:08 Nick9Gu 阅读(1072) | 评论 (1)编辑 收藏

2008年10月23日

这个写的太匆忙了。。凑合看看吧。。


2791 Area 51 107 Northeastern Europe 2005
2792 Brackets Removal 81 Northeastern Europe 2005
2793 Cactus 103 Northeastern Europe 2005
2794 Double Patience 150 Northeastern Europe 2005
2795 Exploring Pyramids 191 Northeastern Europe 2005
2796 Feel Good 515 Northeastern Europe 2005
2797 Guards 34 Northeastern Europe 2005
2798 Hardwood Cutting 53 Northeastern Europe 2005
2799 IP Networks 422 Northeastern Europe 2005
2800 Joseph's Problem 446 Northeastern Europe 2005
2801 Knockdown 22 Northeastern Europe 2005


http://www.cppblog.com/Files/NickGu/neerc2005.pdf

posted @ 2008-10-23 16:40 Nick9Gu 阅读(1192) | 评论 (0)编辑 收藏

2008年10月14日

最终结果是金牌,但没有进入Final。还是能接受的结果,但毕竟还有进步的余地,希望下次能再好点。
题目难度一般,不过阅读和题量比较大,所以还是挺郁闷的。我当时基本都在敲代码没多少需要想的题。。
还是要多多练习啊。

PS.火车上听说bamboo他们硬敲了D题。。700多行代码无模板。。Orz。。

posted @ 2008-10-14 14:39 Nick9Gu 阅读(231) | 评论 (1)编辑 收藏

2008年10月2日

最近其实看了很多相关的内容,比如Petr在某次TCHS前在房间里面和别人聊天的内容啊,之前自己也想过有时候自己太勉强自己了,应该在需要休息的时候放松啊。今天又觉得,其实像现在如果比较不在状态的时候,可以尝试去看看以前的笔记啊,写点总结啊啥的。都挺好的。总之要自我调节,不可太急躁。

这篇日志作为一篇开放式的吧,我想到啥就过来加点,作为自己的一个小Tips。

  • 我需要静一静,写代码是一项需要安静的工作,做自己的就应该少说话。[2008年10月4日13:27:40]
  • 昨天做一个问题一直在网上搜索没有好的答案。但后来和小亮交流下回去自己静静想想就会了,其实并不复杂,但自己没有静下来好好想想才导致自己半天没弄出来。
posted @ 2008-10-02 23:05 Nick9Gu 阅读(179) | 评论 (0)编辑 收藏
还差一道题,先publish下这个beta版的,第一次用CTex写的,呵呵。
总的来说这套题还是比较简单的,数据也不强,不过也都要想想。

http://www.cppblog.com/Files/NickGu/nwerc2003.pdf

题目列表:

1631 Bridging signals 824 Northwestern Europe 2003
1632 Vase collection 234 Northwestern Europe 2003
1633 Gladiators 101 Northwestern Europe 2003
1634 Who's the boss? 222 Northwestern Europe 2003
1635 Subway tree systems 426 Northwestern Europe 2003
1636 Prison rearrangement 166 Northwestern Europe 2003
1637 Sightseeing tour 287 Northwestern Europe 2003
1638 A number game 61 Northwestern Europe 2003


欢迎下载,如果谁会做最后一道麻烦给我留言。。有什么问题可以给我留言也可以电邮我。


posted @ 2008-10-02 00:15 Nick9Gu 阅读(1515) | 评论 (1)编辑 收藏
仅列出标题  

导航

<2024年3月>
252627282912
3456789
10111213141516
17181920212223
24252627282930
31123456

统计

常用链接

留言簿(1)

随笔分类

随笔档案

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜