sunrise

每天不断学习,才能不断提升自己。

  C++博客 :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  64 随笔 :: 0 文章 :: 92 评论 :: 0 Trackbacks

   今天六一,C小加不在身边,混球啊。任务需要在看曼宁的《统计自然语言处理基础》。然后用到互信息,每次我觉得好高深的名字,做下去的时候就发现没有那么难。

搭配

搭配由有限的复合构词法所描述。

识别搭配对的方法有三种:1.使用频率信息的搭配识别。2.基于含义和主词搭配词之间的距离识别。3.基于假设测试和互信息的识别。

1.频率

将语料过滤后得到的动词,名词,之间进行两两配对,统计每个词语在一个句子,或在一个段落中出现的次数,即为频率。

2.均值和方差 

   由于两个词之间的距离是可以变化的,计算两个词之间的偏移量的均值和方差。

均值就是简单的平均偏移量。

方差衡量的是单独的偏移量偏离均值的距离:


 
是同现i的偏移量,表示的是样本偏移量的均值。 

     我们可以通过使用这个信息来发现搭配。具体的方法是通过寻找带有低偏差的词对。一个低的偏差值意味着这两个词通常大致相同距离出现。零偏差意味着这两个词总是以相同的距离出现。

   方差是关于一个相对于其他词分布峰值情况的度量。

关于互信息

互信息的计算公式是这样的:

MI(a,b) = log( p(ab) / (p(a)*p(b)) )

其中log的底数是2p(x)表示x出现的概率。

好吧,好水,好简单。。着手写代码了。

posted on 2012-06-01 13:06 SunRise_at 阅读(1987) 评论(2)  编辑 收藏 引用 所属分类: 自然语言处理

评论

# re: 统计自然语言处理--互信息 2012-06-03 22:35 alafeizai
统计自然语言处理 pdf么?  回复  更多评论
  

# re: 统计自然语言处理--互信息 2012-06-04 10:00 SunRise_at
我看的是纸质的。。@alafeizai
  回复  更多评论
  


只有注册用户登录后才能发表评论。
【推荐】超50万行VC++源码: 大型组态工控、电力仿真CAD与GIS源码库
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理