posts - 12, comments - 4, trackbacks - 0, articles - 36
今天看了一篇文章,主要讲的是数据挖掘在新闻事件的发现和跟踪上面的应用。论文的题目是Learing approaches for Detecting and Tracking News Events.
文章主要分成五个部分
新闻事件的特点分析,新闻事件的发现,新闻事件发现的评估,新闻时间的跟踪,新闻事件跟踪的评估

大致总结一些每一部分的主要内容

新闻事件的特点分析
   新闻事件和一般的文本分类,信息提取不同的地方在于,新闻事件的发展和报道和时间上的关系。新闻是以时间顺序输入TDT系统,关于某个事件的新闻,在时间上是一个尖峰脉冲。因此在做相似性聚类的时候需要充分考虑报道同一事件的新闻在时间上的相似性,以及文本相似性。
   还有就是,报道不同事件的新闻的term会大大不同,其起到的作用,即权值也大大不同,因此需要动态的更改这些权值,为下面的聚类和分类使用。

新闻事件的发现
   新闻事件的发现,实际上就是文本聚类,和时间有关的,文本量不大的文本聚类
   事件发现又分为两部分:回顾的事件挖掘和新事件的在线发现。
   这篇文章主要采用了两个修改了的聚类算法:GAC和INCR,其中GAC是对块数据进行处理,会返回树状聚类,INCR是对流数据进行处理
   聚类的表示,这篇文章使用的是ltc,但其中的idf因子进行了修改
IDF(t,p)=log(N(p)/n(t,p)) 其中p是时间。

   GAC的步骤,

1.       把输入集合的每一个文档当作一个单独的聚类,设置初始划分为单个集合的全部集。

2.       把当前划分分成两个没有重叠,并且连续的大小为m(用户预定义的)的篮子

3.       在每个篮子里面使用GAC,重复的把两个低层的聚类聚集成一个高层的聚类,直到篮子中的聚类降到p(用户预定义的)或者任意两个聚类间的相似性小于一个与定义的阈值(用户预定义的)。

4.       移除篮子边界,按照聚类的时间,把所有GAC聚类放在一起。使用的到的聚类序列作为更新的划分。

5.       重新计算2-4部,直到划分的大小不大于m,或者聚类之间的相似性达到限制。

6.       定期(once of 运行第五步k次)的在每个最高层聚类中重聚类,通过抚平组建聚类和从叶结点重新增长聚类。防止新闻事件被分在两个时间窗口的情况的影响。

      

   
INCR
算法是直接的,一个一个处理文档,逐步增加聚类。如果一个新文档和一个类的相似性大于一个阈值tc,则聚入到已有的最近类。如果和所有的聚类的相似性都小于阈值,则把他作为新类的种子。通过恰当的选取阈值,可以获得不同粒度的聚类。

       对于INCR在线事件发现的应用时,我们引入了一个附加的阈值,noverlty threshold(tn)。如果当前文档和任何聚类的相似性都小于noverlty threshold,这个文档就标记为“NEW”,表示这是一个新事件的开头;否则就标记“OLD”。通过调整这个阈值,可以调整对于在线发现新事件的敏感度。

       设置两个阈值的原因在于可以为不同的任务进行优化,我们发现设置tc=tn对于回顾聚类比较合适,而设置tc=正无穷对于在线侦测比较更好,即,不产生任何聚类。

       对于INCR增加的另外一个功能是时间惩罚(time penalty)。最简单的方法是使用一个时间窗口。给定当前的文档x,我们引入一个时间窗口m表示x前的m个文档,然后定义修改后的x和任意聚类c相似性sim(x,c)

另外,他们引入了衰退相似性的权重函数sim(x,c)=(1-i/m)*sim(x,c),其中ix和类c中最近的文档数。文中说,可以给出非线性的衰退函数,以求得更好的结果。

 

       对于新旧的预测,每个文档要计算一个score,表示这个文档有多新score(x)=1-arg max{sim(x,c)'}  其中x是当前新文档,c是过去的所有聚类。通过设定阈值,来控制准确率和召回率的折中。
   
新闻事件发现的评估
   回顾事件的发现,使用关于篮子的GAC效果最好
   对于在线发现,处理流数据的INCR有天生的优势,但是需要恰当的调整相似性的权重函数和聚类的阈值,这可能需要通过实验测定。

新闻事件的跟踪
   就是要在新闻事件到来的时候,确定他是关于那些事件,但是做决定的根据是先前到来的关于这个事件的为数不多的新闻。同时还要求能够分开有关系的新闻事件,例如前后的矿难。另外就是要求对一个新闻事件的判断必须是独立的,与其他事件无关。
   文章选取了kNN和决策树的算法。因为kNN在TC上的性能非常好,对术语和新闻作了最少的假设。
   为每个新闻事件训练了一个kNN,并把它的m-ary变成了二维判断。是由于正面事例太少,所以修改了一下YES的判断标准。
   决策树的算法暂时不考虑。
   在做分类时,一般只考虑一到一个半月以内的新闻作为训练集,因为一般新闻的持续时间不会超过两个月

事件跟踪的评估
修改后的kNN效果还是很不错的


只有注册用户登录后才能发表评论。
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理