全文检索(http://minidx.com)
posts - 19,  comments - 223,  trackbacks - 0
     摘要: 发出VB.net Demo后,不少人发来邮件询问C++如何调用,因为邮件较多,不逐一回复了。抓紧时间写了个C++的Sample,用法其实和Vb.net差别不大,代码下载在这里(相关文档资料分类中的“Doc,Xls,Pdf等文件中抽取文本的Com组件及Demo(VC++)源代码”),具体可以参照这里,下面是调用部分的代码(C/C++都可以直接调用)和实际截图:  阅读全文
posted @ 2008-01-10 09:24 minidxer 阅读(1004) | 评论 (11)编辑 收藏
接受dudu的邀请当cppblog的管理员有一段时间了。下面关于首页原创精华区的文章的一点思考,希望可以和大家一起探讨。
在后台POSTS的网站分类中,“首页是交流思想的地方, 对首页文章的基本要求是经过自己认真思考并能给别人带来收获, 在发表到首页之前请考虑一下, 这篇文章会给别人带来什么收获。”这一段说明相信大家都有注意到,先不说能给别人带来什么收获,首先的最基本的要求,是“原创”,把一些转载的文章也post到了首页,与大家分享好文章的心情是可以理解的,但是转载的文章毕竟不符合“原创”的精神,我想大家也不希望打开cppblog首页,看到的都是别处看到过的文章吧。
cppblog给了用户非常大的自由,可以挂广告可以自己决定是否发在首页,相信自由这一点大家也都是深有体会的,并且从cppblog我们可以学到很多东西。为了使我们的cppblog越来越好,希望大家在发表在首页之前,先用心得去思考一下,是否值得推荐在首页,是否可以带给别人收获……毕竟等到管理员将你的文章移出首页的话,多少心理总会有点不舒服吧。
考虑了一下,看到首页出现下面这些类型的文章,我们将直接移出首页,有什么补充或不妥的,欢迎大家提出自己的意见。
●非原创文章
●内容和cppblog博客主题完全没有关系的文章
●提供盗版下载,注册码类文章
★笔记,感想类的,尽可能写的让一般的读者也可以看懂……
反动,色情类的就不用说了,不仅仅是移出首页的问题了。
因个人精力毕竟有限,希望大家可以共同维护我们的博客家园~

posted @ 2008-01-05 22:37 minidxer 阅读(832) | 评论 (35)编辑 收藏
    2008/1/1更新:IE6.0无法下载问题已经修正,需要的请重新下载~
不少人对《
超高速中日英分词的实现(10MB/S)》的实现比较感兴趣,今年9月份的时候刚好做过一份资料,用C++代码分析了内部分词的转换,资料的说明部分可以参考《双数组Trie(Double Array Trie)实现原理的一点剖析》,实现的原理和datrie(英文),京都大学情報学研究科Mecab(日文)还有chasen(日文)一样的,都有完整的C/C++代码,有兴趣的可以下来分析一下。
分析说明文档(PDF)可以在这里下载( 双数组Trie(Double Array Trie)实现原理)。阅读者需要对计算机内部编码比较熟悉,否则可能无法理解其中的转化过程,发布这一文档只是为了分享,当然我也很乐意回复你在阅读中所遇到的任何问题,:)
posted @ 2008-01-01 08:05 minidxer 阅读(1335) | 评论 (0)编辑 收藏
   2008/1/1更新:IE6.0无法下载问题已经修正,需要的请重新下载~
本来不准备发这篇文章的,不过看到《UTF8编码的中文词库下载》发了仅仅一周,下载量居然达到2200多次,每天都有NN位针对中文词库来自搜索引擎的朋友,看来需要这样的词库的朋友还是挺多的,想写自己分词系统的或者有其他需要的朋友从这里的“folder icon 相关文档资料中直接下载
posted @ 2008-01-01 08:04 minidxer 阅读(2072) | 评论 (6)编辑 收藏
    PS:祝大家2008年学业有成,工作顺心,越过越开心~~~
不需要安装Word,Excel,Adobe Reader等应用程序就可以直接读取doc,xls,pdf中的文本内容,这样的功能在很多的场合都会用到,比如搜索引擎抓取各种格式的文件进行索引,比如做一个自己的文本阅读器……Minidx的这一模块将可以使你简单的实现这一功能。具体使用说明参照《利用Minidx Extract-Text Com组件从Word,Xls,Pdf……等文件中读取文本内容》,组件和Demo源代码下载在这里的《Doc,Xls,Pdf等文件中抽取文本的Com组件及Demo源代码》。该组件可用于任何商业和非商业的用途,如果你愿意的话,可以发一个邮件给我告诉我这一模块被用在了你的项目中,当然这不是必需的,:),下面是中日英Word中抽取文本的效果图:


posted @ 2007-12-31 22:45 minidxer 阅读(857) | 评论 (0)编辑 收藏
刚刚购买了国外的一款虚拟主机 + 独立IP + 域名
大家能不能帮忙测试一下能否访问?以及下载速度
主页地址:(应该只有hello,world一句话)
转移了http://minidx.com(2007/10/27)
下载测试文件(2MB左右):
http://minidx.com/libharu_2_0_8_win32.zip  ※一个从PDF中抽取文本和图片的开发包源代码
例子:
地区:上海
状态:可以访问
网络:上海电信ADSL
下载速度:200KB/S
谢谢啦~~~
cc1af6aa
posted @ 2007-10-24 23:27 minidxer 阅读(198) | 评论 (24)编辑 收藏
     摘要: 经常可以看到这样的写法:if (p != NULL) delete p; 或者 if (p) delete p;
这样写没有错,但问题是,这里的if是否必要?  阅读全文
posted @ 2007-10-19 20:40 minidxer 阅读(2220) | 评论 (51)编辑 收藏
     摘要: 声明:可任意转载,复制,修改,以及用于任何您所希望的目的而与作者无关。 来自:Minidx全文检索(http://minidx.com)
Minidx的IFilter Com组件中的一个字符串处理函数,过滤掉一些特殊字符,转为标准的ASCII字符.因为要处理包括欧洲以及阿拉伯等其他一些特殊字符,所以case比较多,请结合自己的需要选择性的修改使用,:)  阅读全文
posted @ 2007-09-20 23:37 minidxer 阅读(607) | 评论 (0)编辑 收藏
     摘要: 北大研究生课程《文本挖掘技术》的全套课件,分享的目的旨在给与勤奋者更多的资源。不得用于任何以营利为目的的活动/方式  阅读全文
posted @ 2007-09-19 23:42 minidxer 阅读(957) | 评论 (10)编辑 收藏
     摘要: 一些值得一看的论文,有的看一次需要30$,这里与大家分享,有需要的自己取吧……
・ Query Time Trade-offs in Dynamic Information Retrieval System
・ Hybrid index maintenance for growing text collections(非常好地在线索引论文)
・ 信息检索模型
・ 信息过滤
・ 搜索引擎技术
・ 双数组Trie树算法
……
以及其他参考书,共12篇  阅读全文
posted @ 2007-09-15 15:20 minidxer 阅读(937) | 评论 (3)编辑 收藏
仅列出标题  下一页
感谢您的关注!因时间关系本人不再担任CppBlog的管理员,本博客也不再更新。Minidx相关信息请直接访问Minidx.com

★★Minidx RC1.1发布,  
>>>下载点这里

>>>详细信息点这里

常用链接

留言簿(2)

随笔分类

随笔档案

相册

Minidx

搜索

  •  

积分与排名

  • 积分 - 47496
  • 排名 - 32

最新随笔

最新评论

阅读排行榜

评论排行榜