自然语言处理中,经常要处理序列标注问题(分词、词性标注、组快分析等),为给定的观察序列标注标记序列。

os分别代表观察序列和标记序列,

clip_image002

根据贝叶斯公式,clip_image004

  生成模型和判别模型的定义

  os进行统计建模,通常有两种方式:

(1)生成模型

   构建os的联合分布p(s,o)

(2)判别模型

   构建o和s的条件分布p(s|o)

   判别模型和生成模型的对比

(1)训练时,二者优化准则不同

      生成模型优化训练数据的联合分布概率;

      判别模型优化训练数据的条件分布概率,判别模型与序列标记问题有较好的对应性。

(2)对于观察序列的处理不同

      生成模型中,观察序列作为模型的一部分;

      判别模型中,观察序列只作为条件,因此可以针对观察序列设计灵活的特征。

(3)训练复杂度不同

      判别模型训练复杂度较高。

(4)是否支持无指导训练

      生成模型支持无指导训练。