为生存而奔跑

:: 首页 :: 联系 :: 聚合

:: 管理

271 Posts :: 0 Stories :: 58 Comments :: 0 Trackbacks

留言簿(5)

我参与的团队

随笔分类

随笔档案

相册

Girl

搜索

积分与排名

积分 - 338911
排名 - 73

阅读排行榜

评论排行榜

下一代Web搜索引擎探讨

作者：邓长寿　　赵秉岩

摘要：本文在总结目前的Web搜索引擎现状的基础上，分析了目前的Web搜索引擎所面临的四个主要挑战，

探讨了下一代Web搜索引擎的改进措施和发展方向。

关键词：Web搜索引擎；WWW；动态页面；XML

Internet的出现，尤其是WWW应用的快速发展，使之已经成为一个巨大的海量信息空间，其间的信息种类

也伴随着应用领域的拓展而更加丰富。 WWW上每天都有新页面的产生，现有的页面在不停地被更新，页面

与页面之间的联系也趋于紧密和复杂。面对如此庞杂的信息资源，如果仅仅采用浏览器，获取有价值的信

息是困难和低效的。Web搜索引擎的出现，为人们从WWW获取信息发挥了重要的作用，但是，随着信息量的

急剧增加和基于 WWW的新的应用模式的出现，现有的Web搜索引擎也面临着新的挑战。因此，新的计算机

技术和网络技术不断地被应用，来满足人们日益精细的查询信息的需求。本文在总结Web搜索引擎的现状

的基础上，指出其目前所面临的四个挑战，提出在下一代Web搜索引擎中可采取的新技术和方法。

1　Web搜索引擎现状

根据中国互联网络信息中心（CNNIC）的统计，搜索引擎的应用频率仅次于电子邮件，名列第二，是人们

上网时最为重要的应用工具之一。美国斯坦福大学的Arvind Arasu以及张继成等分别对于目前的Web搜索

引擎的体系结构进行了分析，对于每个组成部分的主要功能及实现的关键技术进行了详细的阐述。从所使

用技术的角度，目前Web搜索引擎可分为三类：关键字式Web搜索引擎（Keywords Web Search Engine）、

目录式的Web搜索引擎（Directory Web Search Engine）、元搜索引擎（Meta Search Engine）。

（1）关键字式Web搜索引擎。

关键字式Web搜索引擎是Internet上的一种常用的搜索引擎。一般先由搜索机器人（Robot）将网络信息采

集到一个数据库，建立文档集合；再由本地服务器对于所收集的文档进行分类、索引，以供用户进行查询

。这种搜索引擎的内容更新较快，但是由于其一般采用了空间矢量相似模型，其查准率不太高。国外的

Alta Vista和Lycos以及国内的天网等属于此类。

（2）目录式的Web搜索引擎。

目录式的Web搜索引擎先是以人工方式或半自动化的方式收集信息，再由人工将信息分类放置于事先确定

的分类框架中，提供目录服务。由于人工的参与，其信息准确性和查询的质量较高。但是人工的介入也带

来信息更新的不及时与信息量的不充足。如Yahoo和Sohu就属于此类的搜索引擎。

（3）元搜索引擎。

元搜索引擎（Meta Search Engine）没有自己的数据库，是通过将用户的查询请求同时向多个其它类型的

搜索引擎提交，将重复的返回结果去除，按相关性重新排序之后，作为自己的结果，返回给用户。这样使

得查询所获得的结果信息量更大、更全。缺点是不能够充分发挥所用的其它类型的搜索引擎的功能。一般

来说，用户需要重新做较多的筛选。 Meta crawler、Profusion、Savvy Search等是元搜索引擎的典型代

表。

2　Web搜索引擎所面临的挑战

目前的Web搜索引擎在帮助人们有效查询信息的过程中已经发挥了巨大的作用，但是面对用户的多样化需

求和个性化服务的呼声以及基于WWW的新的应用模式的出现，Web搜索引擎技术面临极大的挑战。

（1）缺乏对于语义查询的支持，用户常为大量的与查询无关的结果所困扰。

人们在利用搜索引擎查询所需的信息时，常常会获得大量的查找结果，其中一部分往往与查找者所期望的

差距较大。其原因是大部分的搜索引擎是利用查询者所输入的关键字与自己的文档数据库中的数据仅仅从

字面来进行比较判断，常常造成大量的答非所问信息的查询结果提交。一个急需解决的问题是根据用户仅

有几个输入词，来猜测用户真正需要查找什么。即实现语义查询，来正确理解用户的查询需求。

（2）基于单数据库模型的Web搜索引擎，查全率非常有限。

基于单数据库模型的Web搜索引擎对于小规模的、静态的、初期的Web信息的查询是比较有效的。但是，随

着Web规模的扩大，更加丰富的内容，大量动态信息和需要经授权才能访问的内容的出现，使得基于单数

据库模型的Web搜索引擎所收集到信息非常有限，导致目前的搜索引擎的查全率非常有限，造成用户可能

所需要的大量信息缺失。

（3）缺乏对于Web后台数据库中内容查询的支持，用户所需的深层次的信息无法获得。

随着动态页面技术的不断发展，Web上的动态页面数目不断增加。可是，目前的Web搜索引擎的查找的对象

仅仅为可访问的静态页面，对于那些用于生成动态页面内容的后台数据库中的内容，却未加以访问，致使

用户所需的大量深层次的信息无法获得。

（4）基于WWW的新应用模式和新数据类型的出现，对传统的搜索引擎提出新的挑战。

在WWW被广泛应用之前，查询技术主要有：对于文档的基于关键词匹配的检索技术以及对于数据库中的数

据的结构化查询。目前的Web搜索引擎基本是以关键词匹配的信息检索技术为基础，对于传统页面HTML文

档的查询发挥了重要的作用，但是随着XML数据在基于WWW的数字化图书馆和电子商务中的广泛应用，原有

的基于关键词匹配的检索技术显得无法实现复杂应用对于精细查询的需求。如果将数据库技术应用于网上

数据的管理和查询，则可以使查询基于多个数据源，且查询可以在更细的粒度上进行。由于网上数据缺乏

统一的固定模式，数据不规则，且经常变动，这造成数据库技术直接应用于网上数据比较困难。于是研究

这种新类型数据的半结构化数据模型应运而生。XML数据是一种自描述的个结构化数据，它已经成为数据

组织和交换的事实标准。由于其无模式及自描述的特点适宜于描述网上数据。随着新应用模式不断出现在

WWW上，无结构的HTML文档及其相应的信息检索技术将不再适应下一代更复杂的Web应用。

总之，目前的Web搜索引擎主要采用的技术是在传统的基于关键词匹配的检索技术的基础之上，尽管其对

于用户在Web上的信息查询起了一定的作用，但面对数字图书馆和电子商务等新的应用模式的出现和用户

查询要求的日益增加，现有的Web搜索引擎已不能很好的满足用户的需求。新技术的引入是势在必行的。

3　下一代Web搜索引擎探讨

面对上述的四个挑战，本文认为下一代Web搜索引擎的发展主要有两个途径：一个是对于基于关键字匹配

的检索技术的搜索引擎进一步完善；另一个是将数据库技术引入对于WWW数据的管理和查询。

3.1　对于基于关键字匹配的检索技术的搜索引擎进一步完善

为了让Web搜索引擎更好地为用户服务，理论界已经进行了一些有益的探索。例如，Ramash在文献《Link

Prediction and Path Analysis Using Markov Chains.　Proceedings of the 9th international

world wide Wed conference 》中提出了基于Markov链的链接分析技术和Dell在文献《An efficient

algorithm to rank Web resources.　Proceedings of the 9th international world wide Web

conference》提出了一种综合计算页面信誉度的计算算法，可以改善Web搜索引擎的查询结果。本文认为

仅仅提高页面的信誉度不能从根本上解决查准率和查全率问题。为了提高用户对于搜索引擎的满意度，可

以通过扩展搜索引擎对于语义查询和动态内容查询的支持、扩展搜索引擎的体系结构来实现提高搜索引擎

的性能。

3.1.1　提高查询的精确度和充分理解用户的查询需求

Web搜索引擎的查询结果与其对于用户查询需求的理解程度密切相关。为了提高查询的精确度和对于用户

查询需求的理解的准确度，在下一代Web搜索引擎中可以采用以下方法来解决。

（1）开发更多的专题型的Web搜索引擎。

传统的信息检索系统和通用型的Web搜索引擎是以查询任意主题为假设条件的。在现实中，部分的查询是

针对一些较少数量的主题（比如，产品、娱乐和时事等等），若能充分利用这一规律，从Web中获取信息

来建立一个关于主题的数据库，再利用结构化查询技术进行查询，就可以使查询返回的结果更加符合用户

的要求。构建一个专题型的搜索引擎需要解决的问题主要有：确认相关的信息源、对于信息进行抽取和分

类、以及对异源信息的集成。目前此类技术已经应用于一些原型系统和部分商业系统。在将来，基于不同

的机器学习技术的工具的出现，将更进一步优化对于文本的信息进行分类和抽取。未来的专题的Web搜索

引擎将更加普遍，其中，Cora系统与Flipdog.com是专题型的Web搜索引擎的典型代表。

（2）Web搜索引擎查询的自动路由技术。

由于Web上用户的数量极大，普通的用户很难确定哪一个Web搜索引擎更适宜自己。因此，如果根据用户的

查询请求，针对某一个特定专题，自动找到（route）的该专题的搜索引擎，那么就有利于提高其查询效

率。为了实现用户的查询请求的自动路由过程，通常需要访问某个专题的Web搜索引擎的内部数据库。主

要采用的新技术有两种：第一，是基于邻居的身份确认，即从已经存在的Web文档收集与一个搜索引擎相

关的主题的技术；第二，是查询扩展技术，主要用来评价查询与搜索引擎已确认的主题间的关联程度。目

前已有一个效率较高的自动路由系统Q—pilot实现了这一功能，但其性能仍然有待进一步提高。

（3）Web搜索引擎之间的合作。

由于每一个Web搜索引擎对于Web页面的搜索覆盖范围有限，因此，让不同的Web搜索引擎协同工作，将会

提高效率。一种可行的方案是利用IP地址来划分Web空间，在现有的每个Web搜索引擎各自负责一块Web空

间的基础上，将所有的Web搜索引擎联合起来，使Web搜索引擎的覆盖的范围加大。Web搜索引擎合作的方

式主要有两种：一种为主Web搜索引擎在查询自己本地的页面仓库的同时，将查询请求同时提交给另外相

关的Web搜索引擎，然后，将经过去除重复处理后的结果一并返回给用户；第二种协作方式为在一个主Web

搜索引擎的Web页面上链接到其他的Web搜索引擎。

（4）充分利用上下文提示，实现个性化的查询。

当前的Web搜索引擎总是认为查询请求是彼此孤立的。不同的用户，相同的查询请求，查询结果是完全相

同的。下一代的Web搜索引擎将不断地利用上下文提示信息，或者是用户的明确的或含蓄的上下文信息，

实现个性化的查询。在用户输入查询时，选择相关的上下文来显示限制查询的范围；根据用户的访问的历

史记录来自动实现上下文信息；利用用户注册信息的方法也可以有效地实现个性化的查询。

（5）利用本体技术，提高Web搜索引擎的语义处理能力。

本体技术自90年代出现之后，其强大的语义表达和处理能力，使其在人工智能和计算机领域得到了广泛的

应用。在传统的信息检索模型基础上附加能够处理语义的“本体”，既增加了处理语义的能力，又保留原

模型中的关键部分。关键字式搜索引擎提供对文档内容的全文检索，但是不提供索引词的分类结构，所以

也就不支持文档的分类。目录式的搜索引擎提供文档分类结构，但是不提供全文检索功能。基于本体的

Web信息检索模型除了具备处理语义的能力以外，还同时具备自动的全文检索功能和目录分类结构，将本

体技术引入搜索引擎，可以大大提高搜索引擎的语义处理能力，从而有希望实现用户仅有的几个输入而真

正理解用户的查询请求，实现了真正的语义查询。

3.1.2　体系结构改进

目前的Web搜索引擎是基于单个数据库上的信息系统，已不能适应大规模、异构、分布式的网上数据特性

，使得信息的采集非常困难，由此也难以构建新一代的Web搜索引擎。现在，基于多个数据库的体系结构

为Web搜索引擎提供了一个更为坚实的基础，因为它明显地体现了Web信息的多个站点、多个数据源的本质

。传统的基于单个数据库的Web搜索引擎在多个数据模型当中仍然可以发挥辅助性作用。多数据库检索模

型可分为小规模环境和人规模环境。小规模环境适用于单一的组织控制中，包含几百个文本数据库；大规

模环境适用于多个组织控制之中，可能包含成千上万文本数据库。基于多个数据库模型可以分为两类：消

息传递模型和中央资源选择模型。消息传递模型是在多数据库中进行查询的真正的分布式解决方案。但消

息传递模型的增加不必要的信息传递和计算、增大了网络负担的特性限制了其作为下一代Web搜索引擎的

模型；在其能够成为下一代分布式Web搜索引擎的基础之前，仍然有许多问题需要解决。相比之下，中央

资源选择模型的处理大规模问题、比较高效地提供一致性的查询结果、以及同时支持异构数据源的集成等

特点使其更有可能成为下一代基于多数据库平台的Web搜索引擎的模型。因此，中央资源选择的多数据库

模型将极有可能成为下一代的Web搜索引擎的基础。

3.1.3　增加对于动态页面的查询

目前的Web搜索引擎的范围仅仅为可索引的Web页面，即那些通过超级链接来访问的页面，但是忽略了那些

需要授权才能访问的页面，特别是那些在后台数据库中存储的内容。许多研究表明Web中的大量信息是动

态的，而且动态内容的产生机制各不相同。例如，有些页面是服务器根据客户端的请求产生的，有些是客

户端利用内嵌于主页中的代码来从服务器端获取动态的信息。随着产生动态页面的技术不断出现（例如

CGI，ASP，PHP。Active X，JavaServlet等），动态内容的产生方法已经非常丰富，但目前的Web搜索引

擎几乎不对动态内容进行访问。其原因是动态内容的特殊访问机制不容易训练搜索机器人来自动获取信息

。对此，斯坦福大学的Sriram等给出了一个抽取动态信息的框架的实验原型HiWE（Hidden Web Exposer）

。HiWE充分利用了动态页面的产生机制，利用人工辅助的方法解决动态信息的提取。该模型是面向特定任

务的，即针对特定的应用、特定的域和特定用户（user Profile）。该原型的出现为完善Web搜索引擎的

功能提供了一个有益的思路，在下一代的Web搜索引擎中应该集成类似的技术，从而能够对于动态的Web页

面进行有效的查询。

3.2　将数据库技术应用于Web搜索引擎

上述的对于基于传统的信息检索技术的Web搜索引擎的不断改善，会提高现有Web搜索引擎的性能，更好地

满足用户的查询需求。但是，由于数字化图书馆和电子商务等新的应用的出现，无结构的HTML文档及其相

应的信息检索技术将不再适应WWW数据管理与查询的需求。将数据库技术引入WWW数据管理与查询，显得尤

为迫切。

文献《Web查询技术研究》对于数据库查询和基于关键词匹配的信息检索技术进行了详细的比较。指出了

两者的最大的一个区别是数据库的数据结构更强，比信息检索的数据包含更多的语义。数据库适合管理结

构数据，信息检索技术比较适合处理无结构的数据。本质上，信息检索技术是使用“近似”的方法为用户

查询到相关的信息。具体而言，信息检索技术与数据库查询相比，“近似”在如下三个方面。

（1）近似的检索条件说明：在数据库查询中，包含了用户所需信息的完全的条件说明；在基于关键字的

信息检索条件说明往往是不完全的，甚至有时用户不能完全描述条件。

（2）近似匹配：数据库的查询基于对条件的完全匹配；而在基于关键字的信息检索中，此类匹配也有意

义，但通常用户是从部分的匹配结果的选项中，选出最佳的匹配项。

（3）近似结果：基于关键词匹配的信息检索技术的最终结果传递给用户用于浏览，结果是近似匹配得到

的，表征着项之间相关的可能性，所以查询结果无须也不可能非常精确。用户可以进一步分析筛选系统返

回的结果，并且信息检索系统中，匹配的失误通常并不显著影响系统性能。而数据库对失误更敏感，匹配

的失误意味着系统的整体失败。

随着数据量的增加以及新的引用模式的出现。单一的基于关键词匹配的检索技术显得力不从心。因此，引

进数据库技术，对于Web中的半结构化信息的充分应用，为进一步改善Web搜索引擎的性能，提供了一个全

新的思路。XML为WWW中的数据管理提供了新的数据模型，将促进成熟的数据库技术引入Web信息处理领域

，把Web变为一个巨大的数据库，使得将数据库技术扩展到Web数据管理成为可能。

4　结语

随着WWW上的数据量的激增以及数字图书馆、电子商务等新应用模式的不断出现，传统的基于信息检索技

术的Web搜索引擎不能满足用户的需要。一方面，可以对于传统的信息检索技术进一步改进，提高其性能

。例如，将人工智能，本体等技术引入Web搜索引擎，来提高其语义处理能力；对于产生动态内容的后台

数据库的访问，来提高其查全率；扩展传统的基于单数据库模型的体系结构，来提高其性能。另一方面，

XML为WWW中的数据管理提供了新的数据模型，把WWW变成一个巨大的数据库，使数据库技术扩展到WWW数据

的管理成为可能。总之，下一代web搜索引擎将是基于分布式模型的、采用最新查询技术和最新的查询语

言、能够透明地搜索信息的网络工具。

posted on 2009-09-25 22:55 baby-fly 阅读(968) 评论(0) 编辑收藏引用所属分类: Information Retrival / Data Mining

只有注册用户登录后才能发表评论。


相关文章: 转自水木NLP，duckyaya版主总结的关于文本分类的若干资源。 NLP常用工具 List of English stop words [Lucene.Net] 基本用法 WordNet-based semantic similarity measurement Java WordNet API Lucene索引中term的频率【转】Lucene 搜索引擎倒排索引原理 Querying DBpedia 实战 Lucene，第 1 部分: 初识 Lucene 转自IBM

网站导航: 博客园博客园最新博文博问管理