全文检索(http://minidx.com)
posts - 19,  comments - 226,  trackbacks - 0
Minidx原先采用的是单字分词,效率方面比较低,所以重写了Minidx的分词模块,实现了超高速分词以及相当的准确率效果,随后发布这一机能实现的相关论文(暂且这么称呼……)。不知大家是否有需要,这一分词模块开发包(C++实现),更多信息请到http://minidx.com

英文因为还没有对单词作处理,所以出来结果比较奇怪,中文和日文应该准确率还是挺高的。先来几张图片Show一下

中文分词
中文分词





日文分词


英文分词


posted on 2007-09-07 00:25 minidxer 阅读(1421) 评论(17)  编辑 收藏 引用 所属分类: Minidx全文检索相关

FeedBack:
# re: 超高速中日英分词的实现
2007-09-07 09:00 | 多么乐
关注

论文和代码开源吗  回复  更多评论
  
# re: 超高速中日英分词的实现
2007-09-07 09:17 | Minidx全文检索
论文(其实只是一篇实现算法的介绍),随后发表
代码的话看看大家是否有需要了,呵呵,为了实现高速分词以及跨平台性,调用了比较多的Minidx本身底层的函数。需要者多的话整理后发布  回复  更多评论
  
# re: 超高速中日英分词的实现
2007-09-07 21:27 | haskell
相当有需要  回复  更多评论
  
# re: 超高速中日英分词的实现
2007-09-07 23:45 | Minidx全文检索
这两天先把文档整理一下.  回复  更多评论
  
# re: 超高速中日英分词的实现
2007-09-09 12:45 | Faster
有多高速?比google还快吗?  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
2007-09-10 00:33 | Minidx全文检索
google用的是Basis Technology(http://www.basistech.com)的公司提供的中文分词技术,速度不是很清楚,但是精确度号称可以达到99.45%  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
2007-09-10 15:18 | 龙行天下
不知道这个版本什么时候提供下载试用啊?
期待中.......................  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
# re: 超高速中日英分词的实现(10MB/S)
2007-12-03 15:43 | <a href=http://minidx.com>minidxer</a>
@磊
你好,这个分词模块是Minidx搜索引擎的一块,前段时间一直比较忙所以没有整理,后面会全部放出来提供下载的。有特殊需要的可以Mail minidxer[at]gmail.com
(PS: http://minidx.com 上的都是比较旧的版本,没有使用这一分词模块)  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
2007-12-03 16:13 |
我已经发你的邮箱了,请现在给我提供代码好么,我现在要做一个日文辅助阅读软件,急需日文分析器,你能加我QQ么,真的谢谢了!  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
2007-12-03 16:16 | <a href=http://minidx.com>minidxer</a>
我并不在国内,这边的环境令我无法使用QQ,实在抱歉……  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
2007-12-03 16:19 |
哦,这样啊,那能不能现在把代码发到我邮箱来,我想的阅读软件也是我导师的一个心愿,希望你能帮我!谢谢!  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
2007-12-03 16:32 | <a href=http://minidx.com>minidxer</a>
算法很简单的,只是我的分词是基于非常庞大的字典,而这个是有版权的……算了,邮件回复你,两头跑还真是累  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)[未登录]
2008-01-08 16:09 | kenlistian
关注中,不知道算法是采取什么方式  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
2008-01-08 16:23 | <a href=http://minidx.com>minidxer</a>
@kenlistian
算法我在下面的文章中有说明
http://blog.minidx.com/2007/12/24/296.html
  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
2008-01-08 16:32 | <a href=http://minidx.com>minidxer</a>
还有http://www.cppblog.com/minidxer/archive/2008/01/01/39643.html 这里也可以看到相关说明,:)  回复  更多评论
  
# re: 超高速中日英分词的实现(10MB/S)
2008-03-30 01:36 | 小虎
你好,有空的时候能把代码和资料发我邮箱吗,我想看看怎么写的,我的邮箱是tiger_shi@163.com  回复  更多评论
  

标题  
姓名  
主页
验证码 *
内容(提交失败后,可以通过“恢复上次提交”恢复刚刚提交的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      
[使用Ctrl+Enter键可以直接提交]
相关链接:
网站导航:
感谢您的关注!因时间关系本人不再担任CppBlog的管理员,本博客也不再更新。Minidx相关信息请直接访问Minidx.com

★★Minidx RC1.1发布,  
>>>下载点这里

>>>详细信息点这里

常用链接

留言簿(2)

随笔分类

随笔档案

相册

Minidx

搜索

  •  

积分与排名

  • 积分 - 48256
  • 排名 - 37

最新随笔

最新评论

阅读排行榜

评论排行榜