Javen-Studio 咖啡小屋

http://javenstudio.org - C++ Java 分布式 搜索引擎
Naven's Research Laboratory - Thinking of Life, Imagination of Future

  C++博客 :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  24 随笔 :: 57 文章 :: 170 评论 :: 4 Trackbacks

      Hawk 搜索引擎平台是面向中小型网站,可以定制的垂直搜索引擎平台。本搜索引擎平台
目标是方便用户搭建站内搜索、某个领域的垂直搜索、以及检索个人文档以及自己关注的
网站信息的桌面搜索等应用领域。它改造自Lucene/Hadoop/Nutch系统,是纯Java的搜索平台软件,
可以运行于Windows及Linux等平台。目前发布版本为初始版本Hawk-0.4.35-test版,具备基本的
抓取、索引和检索功能,本搜索引擎将免费提供,欢迎大家测试和使用,谢谢!
      下一个版本将实现可根据语法以及新词进行分词的分词模块,以及抓取数据的过滤及优化,
索引的消重等方面,以实现可以应用于实际在线产品的版本。
      下面介绍本搜索引擎的使用和演示版本

      1, 下载和安装
      a. 请下载Java运行环境,推荐Java SE 1.6版本
      b. 下载Hawk-0.4.35-test(稍后提供,谢谢)
      c. 解压:tar -zxf hawk-0.4.35-test.tar.gz
      d. 假设Hawk已被解压到 ~/hawk-0.4.35 目录,以下叙述以 $HAWK表示

      2, 配置
      a. 将Java运行环境的bin目录添加到系统PATH环境变量中,同时修改$HAWK/conf/hawk-env.sh
文件设置正确的Java路径。备注:Java缺省会安装在/usr/java目录下
      b. 也可以将hawk解压后目录 $HAWK/bin 添加到PATH环境变量中,方便启动和停止Hawk服务。
      c. 修改 $HAWK/conf/hawk-site.xml 文件中的“search.dir”的值为索引数据存放路径,如
<property>
  <name>searcher.dir</name>
  <value>/tmp/hawkdb</value>
</property>

      d. Hawk系统服务会绑定若干个端口,请查看$HAWK/conf/site.xml,酌情修改

      3, 访问
      a. 启动Hawk服务:运行 $HAWK/bin/start-hawk.sh 和 $HAWK/bin/start-server.sh 脚本
      b. 访问Hawk管理界面(缺省端口为20090),例如:http://localhost:20090/

      4, 抓取网页
      a.  编辑一个文本文件,录入要抓取网站地址,并放入一个独立的目录中,
如:vi /tmp/test/urls.txt 录入 http//www.sina.com.cn

      b. 执行命令:$HAWK/bin/hawk crawl /tmp/test/ -depth 2 (指定抓取深度为2层网页)

      
      c. 点击管理界面上方的“任务”按钮,可以监控任务的执行情况,如下

       d. 完成后控制台显示如下所示:


      5,检索网页

 

      a. 在管理界面的搜索框中输入要检索的关键词,点击“搜索”按钮,即可查询到上面
抓取的网页,如下所示:


      到此基本介绍完了搜索引擎平台的使用步骤,由于还未完成分词等模块,所以相关性还不
尽入如人意,敬请期待,谢谢!


      作者:naven  2008-02-20
posted on 2008-02-21 01:29 Javen-Studio 阅读(734) 评论(3)  编辑 收藏 引用

评论

# re: Hawk-0.4.35开发版搜索引擎平台发布 2008-02-25 10:21 Puserchen
期待下面的举措!  回复  更多评论
  

# re: Hawk-0.4.35开发版搜索引擎平台发布 2008-03-04 02:44 Connor
Hello,

I am Connor Avery and I am interested in your search alot.
I am Ceo of Crystal Productions and I am offering you the chance to come work alongside me?

E-Mail me: cjavo@hotmail.co.uk

Note: I translated this page by google, I do not speak chineese.  回复  更多评论
  

# re: Hawk-0.4.35开发版搜索引擎平台发布 2008-03-04 10:21 Javen-Studio
To Connor, Thanks for your interested in my project, Sorry I dosent plan to go abroad in the near future, but I will persist in this project. thanks for your invitation.  回复  更多评论
  


只有注册用户登录后才能发表评论。
【推荐】超50万行VC++源码: 大型组态工控、电力仿真CAD与GIS源码库
网站导航: 博客园   IT新闻   BlogJava   知识库   博问   管理