C++博客-benbendy-最新评论

C++博客-benbendy-最新评论http://www.cppblog.com/benbendy/CommentsRSS.aspx学习zh-cnThu, 04 Mar 2010 02:32:21 GMTThu, 04 Mar 2010 02:32:21 GMTcnblogsre: ICTCLAS词典学习http://www.cppblog.com/benbendy/archive/2009/02/26/50416.html#74992ictclasictclasThu, 26 Feb 2009 09:11:00 GMThttp://www.cppblog.com/benbendy/archive/2009/02/26/50416.html#74992中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis
System)，主要功能包括中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典。我们先后精心打造五年，内核升级7次，目前已经升级到了ICTCLAS2009

用户词典接口扩展
用户可以动态增加、删除用户词典中的词，调节分词的效果。提高了用户词典使用的灵活性。
分词粒度可调
可以控制分词结果的粒度。共享版本提供两种分词粒度，标准粒度和粗粒度，满足不同用户的需求。
词性标注功能加强
多种标注级的选择，系统可供选择的标注级有：计算所一级标注级，计算所二级标注集，北大一级标注集，北大二级标注集。
关键词提取
自动抽取出能很好地代表文档主题的若干个词或短语。关键词抽取技术广泛应用于信息检索、文本分类/聚类、信息过滤、文档摘要等各种智能文本信息处理领域，具有很好的应用价值。
指纹提取
根据文章的内容，结构，词语间的关系，分析出能够表示该文章的语义指纹，使用数字序列表示。

http://www.ithinker.cn
http://ictclas.org

ictclas 2009-02-26 17:11 发表评论

]]>