C++博客-程序描绘人生-随笔分类-搜索引擎

深入浅出LSH

胡满超 — Sat, 24 Feb 2018 05:10:00 GMT

摘要: 通过这篇文章我们主要回答以下几个问题： 1. LSH解决问题的背景，即以图片相似性搜索为例，如何解决在海量数据中进行相似性查找？ 2. 图像相似性查找的连带问题：相似性度量，特征提取； 3. LSH的数学分析，即局部敏感HASH函数的数学原理，通过与、或构造提升查找的查... 阅读全文

胡满超 2018-02-24 13:10 发表评论

这就是搜索引擎－笔试6-链接分析

胡满超 — Tue, 12 Nov 2013 06:06:00 GMT

搜索引擎在查找时主要考虑两方面因素：网页和查询的相关性、网页的重要性

链接分析解决网页重要性的问题

网页中最重要的三个要素，出链（Out Link），入链（In Links），锚文字

链接分析算法

1、随机游走模型：对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型，用户从当前网页到达某网页的概率

2、子集传播模型：把网页划分为若干子集，给予子集内网页初始权值，根据链接关系，按照一定方式将权值传递到其他网页

不同子集传播模型在如下方面存在差异：

1）如何定义特殊子集合

2）在确定了特殊子集合所具有的性质后，如果对子集内的网页赋初始值

3）从特殊子集合将其分值传播到其他网页时，采取何种传播方式

PageRank算法

除了考虑到入链数量的影响，还参考了网页质量因素

数量假设：在Web图模型中，如果一个页面节点接收到的其他网页指向的入链数量越多，那么这个页面越重要

质量假设：质量高的页面会通过链接向其他页面传递更多的权重

算法开始赋予每个网页相同的重要性得分，通过迭代递归计算来更新每个页面节点的PageRank得分，直到稳定为止

远程跳转：解决链接陷阱的通用方式，在网页向外传递分值时，不限于向出链所指网页传递，也可以以一定的概率向任意其他网页跳转（虚拟边，权值通过虚拟边向外传递）

HITS(Hypertext Induced Topic Selection)算法

Authority页面：某个领域或者某个话题相关的高质量网页

Hub页面：指向很多Authority页面

基本假设1：一个好的Authority页面会被很多好的Hub页面指向

基本假设2：一个好的Hub页面会向向很好的Authority页面

算法步骤：

1、将查询提交给某个现有的搜索引擎，或检索系统，提取排名靠前的结果（根集）

2、在根集的基础上，对其扩充（凡是与根集内网页有直接链接指向关系的网页都被扩充进来）

3、在根集+扩充网页，寻找好的Hub页面与好的Authority页面

4、初始情况下，在没有更多可利用信息前，把所有页面两个权值都设置为1

5、以相互增强的关系等原则进行多轮迭代计算，每轮迭代计算更新每个页面的两个权值，直到权值稳定为止

HITS算法不仅在搜索引擎领域应用，在自然语言处理，社交分析也有较好的效果

HITS算法的不足：计算效率较低、主题漂移，易被作弊者操纵结果，结果不稳定（添加删除个别网页或者改变少数链接关系，对排名影响会很大）

HITS算法与PageRank算法比较

1、HITS与用户输入查询相关，PageRank与查询无关

2、HITS计算效率低，PageRank离线计算，在线直接使用计算结果，计算效率高

3、HITS为局部计算，适合在客户端，PageRank为全局计算，适合步骤在服务器端

4、HITS适合处理具体用户查询，PageRank处理适合处理宽泛的用户查询

5、HITS算法在计算时，为每个页面计算两个分值，PageRank只需计算一个分值，在搜索引擎领域，更重要Authority权值，其他应用领域Hub分值也很重要

6、从反作弊角度说，PageRank从机制上优于HITS

7、PageRank比HITS计算过程更稳定，原因是PageRank计算时的远程跳转

SALSA算法

很多实验数据表明，SALSA是目前最好的链接分析算法之一

计算流程分两个阶段：

1、确定计算对象集合，与HITS类似

1）扩展网页集合，在收到用户查询后，利用现有搜索引擎或检索系统获取根集，并扩展

2）转换为无向二分图，一个子集合Hub集合，Authority集合

2、链接关系传播过程，在这一阶段采纳了随机游走模型

在权值传播过程中，权值是被所有链接平均分配的

HITS模型关注的是Hub和Authority之间的节点相互增强关系

SALSA实际上关注的是Hub-Hub及Authority-Authority之间的节点关系

Authority集合内从某个节点i转移到另一个节点j的概率，i与j之间概率是不同的，非对称

在二分图中，对于Authority集合内的某个节点来说，一定可以通过Hub子集合的节点中转后再次返回本身

建立好Authority节点关系图后，即可利用随机游走模型来计算每个节点的Authority权值

SALSA将搜索结合排序问题进一步转换为求Authority节点矩阵的主秩问题，无需迭代，计算速度快

决定Authority权值的4个因子：

1）Authority子集合中包含的节点总数

2）网页i所在连通图中的节点个数

3）网页i所在连通图中包含的入链总数

4）网页i的入链个数

SALSA算法的特点：

1、SALSA算法无需像HITS算法一样迭代计算，计算速度快

2、解决了HITS主题漂移的问题，搜索质量优于HITS

主题敏感PageRank

该算法被Google使用在个性化搜索服务中，非常适合作为个性化搜索的技术方案

用户会对某些领域感兴趣，同时当浏览某个页面时，这个页面也是与某个主题相关，跳转时，更倾向于点击和当前页面主题类似的链接

主题敏感PageRank是将用户兴趣，页面主题及链接所指向网页与当前网页主题的相似程度综合考虑而建立模型

该算法引入16种主题类型，对于某个网页来说，对应某个主题类型都有相应的PageRank分值

主题敏感的PageRank与主题相关，在接收到用户查询后，主题敏感PageRank还需要利用分类器，计算该查询隶属于事先定义好的16个主题的相似度，并在排序时利用此相似度信息

计算流程：

1、离线的分类主题PageRank数值计算，计算网页对于16个分类的相似度

将网页划分为两个集合，一个ODP对应分类主题对应的所有网页S，剩下的网页为另一个集合T

通过链接关系，从S向T传递权重，即计算网页所属类别的概率

2、在线利用算好的PageRank分值，来评估网页和用户查询的相似度

通过计算查询词所属类别的概率*网页所属类别的概率，得出两者相关性的分值，进行排序

HillTop算法

1、从海量的互联网网页中通过一定的规则选出专家页面子集合，并单独为其建立索引

2、接收用户发出的查询请求时，根据用户查询的主题，从专家页面子集合中找出部分相关性最强的专家页面，对每个专家页面计算相关性得分

3、根据目标页面（从索引系统中中取到的页面）和这些专家页面的链接关系对目标页面进行排序

4、整合相关专家页面和得分较高的目标页面作为搜索结果，返回给用户

从属组织页面：主机IP地址的前3个网段相同，网站域名中的主域名相同

专家页面

1、与某个主题相关的高质量页面

2、这些页面的链接所指向的页面相互之间是非从属组织页面

3、这些被指向的页面大多数是与专家页面主题相近

HillTop可以与某个排序算法相结合，不适合作为一个独立的网页排序算法来使用，因为当无法得到一个足够大的专家页面时，会返回空结果。

步骤1：专家页面搜索

从1亿4千万网页中，筛选出250万作为专家页面，专家页面特征:

1、页面中至少包含K个出链，K可以人为指定

2、K个出链指向的所有页面相互之间的关系，都符合非从属组织页面

对专家页面单独建索引，且只对关键字段(Key Phrase)进行索引，关键字段包含3类信息：网页标题，H1标签内文字和URL锚文字

关键字段有影响范围（可以支配Qualify的链接），依次为，标题->H1标签->URL锚文字

在计算网页排序时，对查询字段在不同的关键字段中，会使用不同的权值

系统接收到用户查询Q，将对专家页面进行打分，主要考虑以下3类信息：

1、关键字段包含了多少词

2、关键片段本身的类型，即关键字段的类型

3、用户查询和关键词的失配率，即关键字段中不属于查询的单词个数占关键片段总单词个数的比率

步骤2：目标页面排序

Hilltop算法包含的基本假设：一个目标页面如果是满足用户查询的高质量搜索结果，其充分必要条件是该目标页面有高质量专家页面链接指向

为保证上述假设的成立，Hilltop算法在这个阶段需要对专家页面的出链仔细进行甄别，以保证查询时，选出那些和查询密切相关的目标页面。

在进行传递分值之前，首先需要对链接关系进行整理，能够获得专家页面分值的目标页面需要满足以下两点要求：

条件1、至少需要两个专家页面有链接指向目标页面，且两个专家页面不能是从属组织页面

能够获得传递分值的目标页面一定有多个专家页面链接指向，目标页面所获得的总传播分值是每个有链接指向的专家页面所传递的分值之和

条件2、专家页面和所指向的目标页面不能是从属组织页面

目标页面权值计算步骤：

1、找到专家页面中那些能够支配页面的关键片段集合S

2、统计S中包含用户查询词的关键片段个数T，T越大权值越大

3、专家页面给目标页面传递分值：E*T,E为专家页面本身在第一阶段计算得到的相关得分，T为b步骤计算分值

对于包含多个查询词的用户请求，则每个查询词单独计算，将多个查询词的传递分值累加

Hilltop算法存在与HITS算法类似的计算效率问题，随着专家页面集合的增大

其他改进算法

1、智能游走模型(Intelligent Surfer Model)

判断网页包含的链接所指向的网页内容和用户查询的相关性，以此来改善链接分析效果

2、偏置游走模型(Biased Sufer Model)

智能游走模型考虑的是网页内容和用户查询的相关性，而偏游走模型考虑的是链接指向的网页内容和当前浏览网页内容之间的相似性

3、PHITS算法(Probability Analogy of HITS)

PHITS是对HITS算法的直接改进。PHITS算法认为不同链接其传递权值的能力应该是不同的，PHITS需要计算两个页面S和T之间链接的连接强度

链接的强度依据页面S和T之间相似度确定

4、BFS算法(Backward Forward Step)

对SALSA算法的扩展，对HITS算法的限制

解除了SALSA算法只允许直接相邻网页才能有影响的限制，只要网页S和T可通达，即可对网页T施加影响，如果网页S距离网页T距离越远，那么网页S的影响就随着距离增大而呈现衰减

胡满超 2013-11-12 14:06 发表评论

这就是搜索引擎－笔试5-检索模型与搜索排序

胡满超 — Mon, 04 Nov 2013 04:56:00 GMT

检索模型与搜索排序

最重要的两个因素，用户查询与网页相关性，网页链接情况

检索模型：用户查询与网页相关性

布尔模型，向量空间模型，概率模型，语言模型，机器学习排序算法

布尔模型：数据基础是集合论，搜索结果过于粗糙，无法量化搜索词与文档之前的相关性

向量空间模型：把文档看做是由T维特征组成的一个向量，最常用的是以单词作为特征，实际应用中，文档的维度相当高（成千上万）

将查询和文档之间的内容相似性作为相关性的替代

计算相似性，使用COSINE，计算查询词特征权值与文档中每个特征权值向量的点积

特征权重：由词频Tf，逆文档频率IDF确定

词频Tf：Wtf=a+(1-a)*Tf/Max(Tf)

a取0.4效果较好

逆文档频率因子：文档集合范围的一种全局因子，特征单词之间的相对重要性

有研究者进一步分析认为：IDF代表了单词带有的信息量的多少（熵），其值越高，说明其信息含量越多，越有价值

IDFk=log(N/nk)

N代表文档集合中总共有多少个文档，nk代表特征单词k在其中多少个文档中出现过

Weight_word=Tf*IDF，特征权值越大，越可能是好的指示词

查询词在某个文档中的词频越高，在其他文档中出现的词频越低，这个词的权值越高

向量空间模型是经验型的模型，靠直觉和经验不断摸索完善，缺乏明确的理论指导改进方向

概率排序原理：给定一个用户查询，如果搜索系统能够在搜索结果排序时按照文档和用户需求的相关性由高到低排序，那么这个搜索系统的准确性是最优的。

将P(D|R)/P(D|NR)大小进行降序排列，得到搜索相关性排序

二元独立模型

二元假设：一遍文档在由特征进行表示的时候，以特征“出现”和“不出现”两种情况来表示

词汇独立假：文档中出现任意一个词在文档的分布概率不依赖于其他单词是否出现

BMI模型：基于二元假设推导而出，对于单词特征，只考虑是否在文档中出现过，而了考虑单词的权值

P(D|R)/P(D|NR) = pi(1-si)/si(1-pi)

log( pi(1-si)/si(1-pi) )

pi代表第i个单词在相关文档集合内出现的概率，在二元假设下，可以用包含这个单词的相关文档个数ri除以相关文档总数R来估算，pi=ri/R

si代表第i个词在不相关文档集合内出现的概率，可以用包含这个单词的不相关文档个数ni-ri，除以不相关文档总数(N-R)来估算，si=(ni-ri)/(N-R)

加上平滑处理

log((ri+0.5)/(R-ri+0.5)

(ni-ri+0.5)/((N-R)-(ni-ri)+0.5))

其含义：对于同时出现在用户查询Q和文档D中的单词，累加每个单词的估值，其和就是文档D和查询相关性度量值

BM25模型

在BIM模型的基础上，考虑了单词在查询中的权值及单词在文档中的权值，拟合出综合上述考虑因素的公式，并通过引入一些经验参数

BM25模型是目前最成功的内容排序模型

k₁,k₂,K均为经验设置的参数，f_i是词项在文档中的频率，qf_i是词项在查询中的频率。

K₁通常为1.2，通常为0-1000

K的形式较为复杂

上式中，dl表示文档的长度，avdl表示文档的平均长度，b通常取0.75

BM25F模型：是典型的BM25改进算法

将文档内容切换成不同的部分，为不同的部分赋予不同的权重

语言模型方法：借鉴语音识别领域采用的语言模型技术，将语言模型和信息检索相互融合

为每个文档建立一个语言模型，语言模型代表了单词或者单词序列在文档中的分布情况

对于查询中的单词来说，每个单词都对应一个抽取概率，将这些单词的抽取概率相乘就是文档生成查询的总体概率

一般采用数据平滑方式解决数据稀疏问题

用户提交查询Q，文档集合内所有文档都计算生成Q的概率，然后按照生成概率值由大到小排序，就是搜索结果

HMM，隐马尔科夫语言模型、相关模型、翻译模型是在基本语言模型的改进

语言模型检索方法效果略优于精调参数的向量空间模型，与BM25等概率模型效果相当

通过理论推导，可以得出：语言模型检索方法的排序公司符合概率模型的概率排序原理，类似向量空间模型Tf*IDF

机器学习排序

为何兴起较晚：

1、其他模型和方法，考虑的因素较少，人工进行公式拟合完全可行，效果尚可

2、机器学习需要大量训练数据，用户点击记录可以当做机器学习方法训练数据的一个替代品

机器学习排序系统的4个步骤：

人工标注训练数据：用户点击记录来模拟人工打分机制

文档特征抽取：查询词在文档中的词频、查询词的IDF信息，网页入链数量，网页出链数量，网页PageRank值，网页URL长度，查询词的Proximity值（文档中多大的窗口内可以出现所有查询词）

学习分类函数

在实际搜索系统中采用机器学习模型

机器学习方法

1、单文档方法

对单独的一篇文档转换为特征向量，机器学习系统根据从训练数据中学习到的分类或回归函数对文档打分，打分结果为最后得分

在训练过程中，当打分大于一定的阈值，为相关文档，否则为不相关文档。

2、文档对方法

通过训练，对文档顺序关系是否合理进行判断，判断两个文档的得分

使用SVM,BOOST,神经网络，都可以做为学习方法

缺点，只考虑了两个文档对的相对先后顺序，却没有考虑文档出现的搜索列表中的位置

不同的查询，相关文档数量差异很大，对机器学习系统的效果造成评价困难

3、文档列表方法

将每个查询对应的所有搜索结果列表作为一个训练实例

通过搜索结果排列组合的概率分布，训练评分函数

搜索质量评价标准：对于搜索引擎更加关注精确率

精确率：本次搜索结果中相关文档所占本次搜索返回的所有文档的比例

招回率：本次搜索结果中相关文档占整个集合中所有相关文档的比例

P@10指标：在搜索结果排名最先前的头10个文档中有多大比例是相关的

MAP：AP兼顾了排在前列的相关性和系统招架率，MAP多组查询的AP平均值

胡满超 2013-11-04 12:56 发表评论

这就是搜索引擎－笔试4-索引压缩

胡满超 — Mon, 04 Nov 2013 04:56:00 GMT

词典压缩：减小词典的内存占用

好的压缩算法：压缩率，压缩速度，解压速度（最重要）

一元编码

1	0
2	10
3	110
4	1110
5	11110

Elias Gamma:

x=2^e+d

e+1:一元编码

d:二元编码

Elias Delta:

x=2^e+d

e+1:再使用Elias Gamma编码一次

d:二元编码

Golomb & Rice

因子1=(X-1)/b，因子1+1，一元编码

因子2=(X-1) mod b，使用二元编码，编码宽度在log(b)

Golomb: b=0.69*Avg(序列平均值)

Rice：2的整数次幂，所有小于Avg中最接近Avg的数值

变长压缩算法SimpleX

Simple9: 32位比特位，4个比特为管理数据存储区，28个比特压缩数据存储区

Simple9的28位有9种表示形式

Simple16: 28位有16种表示形式，并且通过非当项完全固定长度，解决数据区有浪费位的情况

PForDelta：目前解压速度最快的一种倒排文件压缩算法

1，对待编码的连续K个数值（一般为128），确定10%的大数数值，根据70%小数确定夺取的比特宽度，确定整个序列

2，对原始数据遍历，将大数放置到尾端，并转换成链表结构的序列

3、将所有数字压缩到队列中

文档编号重排序

网页的文档ID+单词词频信息，文档ID使用D-Gap进行编码

将内容越相似的网页，在编排文档号时越相邻

海量数据文本聚类速度较慢，将URL相似的网页聚合在一起，假设同一个网站的很多页面表达的主题内容是近似的

静态索引裁剪：主动抛弃一部分不重要的信息（索引项）来达到数据压缩的效果

以单词为中心的索引裁剪：

判断单词与文档的相似性，每个词典中的单词，其对应的倒排排列中至少保留K个索引项，还要保留若干富余项目

实验证明，如果首先对所有索引项的原始得分减去得分最低索引项的得分，再采取（对K个项进行折扣，乘一个折扣因子，得出阈值a，剩下的大于a保留）方法进行裁剪，效果会大大提升

因为

索引项得分分差相关不大，比较集中在某个区间，所以减掉得分最低项

以文档为中心的索引裁剪：更为常用

在建立索引之前进行数据预处理，把与文档主题表达不相关的单词抛弃，如停用词

胡满超 2013-11-04 12:56 发表评论

这就是搜索引擎－笔试3-搜索引擎索引

胡满超 — Mon, 16 Sep 2013 06:01:00 GMT

单词词典

1、哈希加链表

2、树形结构：B树或者B+树

倒排列表：

单词+文档号，词频，出现的位置

文档号一般采用差值存储，以节省空间

建立索引

1、两遍文档遍历法

第一遍，收集全局统计信息，文档数N，每个文档包含不同单词数M，每个单词在多少个文档中出现过的信息DF，通过这些信息可以计算出最终索引的大小

第二遍，在建立好的内存中建立索引，从磁盘读取文档并解析文档是最消耗时间的步骤

2、排序法

始终在内存中分配固定大小的空间，用来存放词典信息和索引中间结果，当分配空间消耗光的时候，把中间结果写入磁盘，清空内存数据进行下一轮索引

中间结果排序，排序前，文档ID，单词ID，单词频率

排序后，单词ID（主键），文档ID（次键）

合并中间结果，把中间结果文件进行合并，按单词ID写入最终结果文件

3、归并法

在中间结果排序完成以后，把字典信息也写入文档中，这样全额使用内存

在建立中间索引中，实际单词，文档编号，词频

合并时，针对每个单词的倒排列表进行合并，形成最终的词典信息

动态索引

倒排索引：词典在内存里，倒排列表存储在磁盘文件中

临时索引：词典和倒排列表都在内存中，当有新文档加入时，放到临时索引中

删除文档列表：当文档内容被更改时，系统认为旧文档被删除，增加一篇新文档

当用户输入查询时，先从找倒排索引+临时索引，去掉删除文档列表中的文档结果

索引更新策略

1、完全重建策略：当新增文档达到一定数量后，新老索引合并重建，适合小文档集合，主流商业搜索引擎一般也采用此方式来维护

2、再合并策略：当新增文档达到一定数量后，新老索引合并重建，此时老索引还在被使用，由于老索引有序，所以合并策略执行较快，但是读老索引，建新索引，也需要较多IO时间，比较耗时

3、原地更新策略：在建立老索引时，在老索引倒排列表中留有一定的余地，新加入索引直接追加到预留空间，实验数据表明，更新效率比再合并策略低

4、混合策略：将单词根据不同性质进行分类，对其索引采取不同的索引更新策略，长倒排列表单词采取原地更新策略（读写开销大），短倒排列表采取再合并策略（读写开销不算太大）

查询处理

1、一次一文档，找到包含关键字的所有文档集合，一次计算一个文档的得分，依次计算所有文档，计算后一般采用优先队列对分数进行排序

2、一次一单词，一次计算一个单词的得分，并把结果以文档编写为关键值，以hash表存储得分，计算所有文档得分后，对hash表进行排序

跳跃指针

在存储倒排索引文档编号时，通常使用跳跃指针节省空间，跳跃指针分块使用根号L为长度效果较好

多字段索引：对网页的不同区域进行字段划分，进行索引

1、多索引方式，对每个不同的字段分别建立索引

2、倒排列表方式，把字段信息存储到倒排列表项中

3、扩展列表方式，把每个字段出现的位置记录到一张列表里，倒排索引找到单词后，判断单词的位置是否在某字段范围中

短语查询：本质上是如何在索引中维护单词顺序关系或位置信息

1、位置信息索引，通过位置信息判断两个词是否为短语关系，适合常规短语

2、双词索引，首词+下词，只对计算代价高的短语建立双词索引，一般短语通过常规手段达到目的

3、短语索引，缺点无法将所有短语都建好索引，从用户查询日志或网页本身挖掘短语，适合热门短语

4、混合方法，用户查询->短语索引->双词索引->常规索引

分布式索引：多台机器协作完成索引

1、按文档划分，每台机器负责对某个文档子集建立索引

2、按单词划分，将单词分别传送给服务器1，计算结果后，再传送给服务器2，一次一单词的查询处理方式

胡满超 2013-09-16 14:01 发表评论

这就是搜索引擎－笔试2

胡满超 — Fri, 13 Sep 2013 03:10:00 GMT

二、网络抓虫

网页页面划分为5个部分：

1、已下载

2、已过期

3、待下载

4、可知网页集合，未下载，但可索引

5、不可知网页集合，暗网网页

爬虫分三种类型：

1、批量型：有明确的抓取范围和目标，当达到这个目标后停止抓取

2、增量型：不断抓取，抓取到以后定期更新

3、垂直型：抓取特定行业网页

优秀爬虫的特性：高性能、可扩展（良好的并发性）、健壮性、友好性（遵守Robot协议）

评价爬虫质量的标准：覆盖率，时新性，重要性

抓取策略：优先选择重要网页进行抓取

1、宽度优先遍历策略，虽然机械，但是效果好，隐含了一些网页优秀级的假设

2、非完全PageRank策略，对已下载网页集合，加上待抓取URL，形成网页集合，进行PageRank计算，将待抓取按得分进行排序

3、OCIP策略，在线页面重要性计算，待下载页面都分配相同的cash，下载后把页面拥有的现金平分给包含的链接，

待抓取URL则根据手头现金排序，优先下载最充裕网页。计算速度快，适合实时计算，效果略优于宽度优先

4、大站优先策略，哪个网站等等下载的页面最多，则优先下载这些链接，效果略优于宽度优先

网页更新策略

1、历史参考策略，过去频繁更新的网页，将来也会频繁更新，利用泊松过程

抓取策略应该忽略掉广告或导航等非重要区域的频繁变化，集中在主题内容的变化探测和建模

2、用户体验策略，对搜索结果排名靠前，更新以后对搜索质量（排名）的影响较大的页面进行更新

3、聚类抽样策略，先对网页进行聚类，对同一类网页采用相同的更新频率

聚类特征：

静态特征，页面的内容，图片数量，页面大小，链接深度，PageRank值

动态特征，随着时间的变化，静态特征的变化情况

聚类抽样策略效果好于前述两种，但是对亿计网页进行聚类，难度较大

暗网抓取

将暗网数据从数据库中挖掘出来，百度的“阿拉丁”计划就是解决此问题

查询组合：Google提出富含信息查询模板技术，使用富含信息查询模板进行查询，获取有效的网页结果

富含信息查询模板：对于某固定的查询模板来说，如果给模板内每个属性都赋值，形成不同的查询组合，其返回内容差异较大，则这个查询模板为富含信息查询模板

分布式爬虫

主从分布式：URL服务器容易成为整个系统的瓶颈

对等分布式：没有URL服务器存在，每台抓取服务器的分工成为问题，对网址的主域名进行哈希计算，之后对m服务器数量取模，把计算后的模和抓取服务器号匹配

一致性哈希算法：将网站主域名进行哈希，映射到0~2^32之间某个数值，抓取服务器负责这个环状序列的一个片段的抓取，抓取内容由上一个服务器进行循环转发

胡满超 2013-09-13 11:10 发表评论

这就是搜索引擎－笔试1

胡满超 — Thu, 05 Sep 2013 06:27:00 GMT

一、搜索引擎介绍

搜索引擎发展阶段：

1、分类目录的一代

2、文本检索的一代

3、链接分析的一代

4、用户中心的一代

搜索引擎的三个目标：更全，更快，更准

搜索引擎的3个核心问题：

1、用户真正的需求是什么，搜索词背后的含义

2、哪些信息是和用户需求真正相关，关键词匹配

3、哪些信息是用户可以依赖的，返回给用户重要的，可依赖的网页

优秀的云存储与云计算机平台已经成为大型商业搜索引擎的核心竞争力

胡满超 2013-09-05 14:27 发表评论

转: 怎样量化评价搜索引擎的结果质量

胡满超 — Wed, 19 Dec 2012 03:03:00 GMT

转自：http://www.infoq.com/cn/articles/cyw-evaluate-seachengine-result-quality

前言

搜索质量评估是搜索技术研究的基础性工作，也是核心工作之一。评价（Metrics）在搜索技术研发中扮演着重要角色，以至于任何一种新方法与他们的评价方式是融为一体的。

搜索引擎结果的好坏与否，体现在业界所称的在相关性（Relevance）上。相关性的定义包括狭义和广义两方面，狭义的解释是：检索结果和用户查询的相关程度。而从广义的层面，相关性可以理解为为用户查询的综合满意度。直观的来看，从用户进入搜索框的那一刻起，到需求获得满足为止，这之间经历的过程越顺畅，越便捷，搜索相关性就越好。本文总结业界常用的相关性评价指标和量化评价方法。供对此感兴趣的朋友参考。

Cranfield评价体系

A Cranfield-like approach这个名称来源于英国Cranfield University，因为在二十世纪五十年代该大学首先提出了这样一套评价系统：由查询样例集、正确答案集、评测指标构成的完整评测方案，并从此确立了“评价”在信息检索研究中的核心地位。

Cranfield评价体系由三个环节组成：

抽取代表性的查询词，组成一个规模适当的集合
针对查询样例集合，从检索系统的语料库中寻找对应的结果，进行标注（通常人工进行）
将查询词和带有标注信息的语料库输入检索系统，对系统反馈的检索结果，使用预定义好的评价计算公式，用数值化的方法来评价检索系统结果和标注的理想结果的接近程度

查询词集合的选取

Cranfield评价系统在各大搜索引擎公司内有广泛的应用。具体应用时，首先需要解决的问题是构造一个测试用查询词集合。

按照Andrei Broder（曾在AltaVista/IBM/Yahoo任职）的研究，查询词可分为3类：寻址类查询（Navigational）、信息类查询(Informational)、事务类查询(Transactional)。对应的比例分别为

Navigational ： 12.3%  Informational ： 62.0%  Transactional ： 25.7%

为了使得评估符合线上实际情况，通常查询词集合也会按比例进行选取。通常从线上用户的Query Log文件中自动抽取。

另外查询集合的构造时，除了上述查询类型外，还可以考虑Query的频次，对热门query（高频查询）、长尾query（中低频）分别占特定的比例。

另外，在抽取Query时，往往Query的长短也是一个待考虑的因素。因为短query（单term的查询）和长Query（多Term的查询）排序算法往往会有一些不同。

构成查询集合后，使用这些查询词，在不同系统（例如对比百度和Google）或不同技术间（新旧两套Ranking算法的环境）进行搜索，并对结果进行评分，以决定优劣。

附图：对同一Query：“社会保险法”，各大搜索引擎的结果示意图。下面具体谈谈评分的方法。

Precision-recall（准确率-召回率方法）

计算方法

信息检索领域最广为人知的评价指标为Precision-Recall（准确率-召回率）方法。该方法从提出至今已经历半个世纪，至今在很多搜索引擎公司的效果评估中使用。

顾名思义，这个方法由准确率和召回率这两个相互关联的统计量构成：召回率（Recall）衡量一个查询搜索到所有相关文档的能力，而准确率（Precision）衡量搜索系统排除不相关文档的能力。（通俗的解释一下：准确率就是算一算你查询得到的结果中有多少是靠谱的；而召回率表示所有靠谱的结果中，有多少被你给找回来了）。这两项是评价搜索效果的最基础指标，其具体的计算方法如下。

Precision-recall方法假定对一个给定的查询，对应一个被检索的文档集合和一个不相关的文档集合。这里相关性被假设为二元的，用数学形式化方法来描述，则是：

A表示相关文档集合

A表示不相关集合

B表示被检索到的文档集合

B表示未被检索到的文档集合

则单次查询的准确率和召回率可以用下述公式来表达：

（运算符∩ 表示两个集合的交集。|x|符号表示集合x中的元素数量）

从上面的定义不难看出，召回率和准确率的取值范围均在[0,1]之间。那么不难想象，如果这个系统找回的相关越多，那么召回率越高，如果相关结果全部都给召回了，那么recall此时就等于1.0。

	相关的	不相关
被检索到	A∩ B	A∩ B
未被检索到	A∩B	A∩B

Precision-Recall曲线

召回率和准确率分别反映了检索系统的两个最重要的侧面，而这两个侧面又相互制约。因为大规模数据集合中，如果期望检索到更多相关的文档，必然需要“放宽”检索标准，因此会导致一些不相关结果混进来，从而使准确率受到影响。类似的，期望提高准确率，将不相关文档尽量去除时，务必要执行更“严格”的检索策略，这样也会使一些相关的文档被排除在外，使召回率下降。

所以为了更清晰的描述两者间的关系，通常我们将Precison-Recall用曲线的方式绘制出来，可以简称为P-R diagram。常见的形式如下图所示。（通常曲线是一个逐步向下的走势，即随着Recall的提高，Precision逐步降低）

P-R的其它形态

一些特定搜索应用，会更关注搜索结果中错误的结果。例如，搜索引擎的反作弊系统（Anti-Spam System）会更关注检索结果中混入了多少条作弊结果。学术界把这些错误结果称作假阳性（False Positive）结果，对这些应用，通常选择用虚报率（Fallout）来统计：

Fallout和Presion本质是完全相同的。只是分别从正反两方面来计算。实际上是P-R的一个变种。

再回到上图，Presion-Recall是一个曲线，用来比较两个方法的效果往往不够直观，能不能对两者进行综合，直接反映到一个数值上呢？为此IR学术界提出了F值度量（F -Measure）的方法。F-Measure通过Presion和Recall的调和平均数来计算，公式为：

其中参数λε(0,1)调节系统对Precision和Recall的平衡程度。（通常取λ=0.5，此时）

这里使用调和平均数而不是通常的几何平均或算术平均，原因是调和平均数强调较小数值的重要性，能敏感的反映小数字的变化，因此更适合用来反映检索效果。

使用F Measure的好处是只需要一个单一的数字就可以总结系统的检索效果，便于比较不同搜索系统的整体效果。

P@N方法

点击因素

传统的Precision-Recall并不完全适用对搜索引擎的评估，原因是搜索引擎用户的点击方式有其特殊性，包括：

A 60-65%的查询点击了名列搜索结果前10条的网页；  B 20-25%的人会考虑点击名列11到20的网页；  C 仅有3-4%的会点击名列搜索结果中列第21到第30名的网页

也就是说，绝大部分用户是不愿意翻页去看搜索引擎给出的后面的结果。

而即使在搜索结果的首页（通常列出的是前10条结果），用户的点击行为也很有意思，我们通过下面的Google点击热图（Heat Map）来观察（这个热图在二维搜索结果页上通过光谱来形象的表达不同位置用户的点击热度。颜色约靠近红色表示点击强度越高）：

从图中可以看出，搜索结果的前3条吸引了大量的点击，属于热度最高的部分。也就是说，对搜苏引擎来说，最前的几条结果是最关键的，决定了用户的满意程度。

康乃尔大学的研究人员通过eye tracking实验获得了更为精确的Google搜索结果的用户行为分析图。从这张图中可以看出，第一条结果获得了56.38%的搜索流量，第二条和第三条结果的排名依次降低，但远低于排名第一的结果。前三条结果的点击比例大约为11:3:2 。而前三条结果的总点击几乎分流了搜索流量的80%。

另外的一些有趣的结论是，点击量并不是按照顺序依次递减的。排名第七位获得的点击是最少的，原因可能在于用户在浏览过程中下拉页面到底部，这时候就只显示最后三位排名网站，第七名便容易被忽略。而首屏最后一个结果获得的注意力（2.55）是大于倒数第二位的(1.45)，原因是用户在翻页前，对最后一条结果印象相对较深。搜索结果页面第二页排名第一的网页（即总排名11位的结果）所获得的点击只有首页排名第十网站的40%，与首页的第一条结果相比，更是只有其1/60至1/100的点击量。

因此在量化评估搜索引擎的效果时，往往需要根据以上搜索用户的行为特点，进行针对性的设计。

P@N的计算方法

P@N本身是Precision@N的简称，指的是对特定的查询，考虑位置因素，检测前N条结果的准确率。例如对单次搜索的结果中前5篇，如果有4篇为相关文档，则P@5 = 4/5 = 0.8 。

测试通常会使用一个查询集合（按照前文所述方法构造），包含若干条不同的查询词，在实际使用P@N进行评估时，通常使用所有查询的P@N数据，计算算术平均值，用来评判该系统的整体搜索结果质量。

N的选取

对用户来说，通常只关注搜索结果最前若干条结果，因此通常搜索引擎的效果评估只关注前5、或者前3结果，所以我们常用的N取值为P@3或P@5等。

对一些特定类型的查询应用，如寻址类的查询（Navigational Search），由于目标结果极为明确，因此在评估时，会选择N=1（即使用P@1）。举个例子来说，搜索“新浪网”、或“新浪首页”，如果首条结果不是新浪网（url：www.sina.com.cn），则直接判该次查询精度不满足需求，即P@1=0

MRR

上述的P@N方法，易于计算和理解。但细心的读者一定会发现问题，就是在前N结果中，排序第1位和第N位的结果，对准确率的影响是一样的。但实际情况是，搜索引擎的评价是和排序位置极为相关的。即排第一的结果错误，和第10位的结果错误，其严重程度有天壤之别。因此在评价系统中，需要引入位置这个因素。

MRR是平均排序倒数（Mean Reciprocal Rank）的简称，MRR方法主要用于寻址类检索（Navigational Search）或问答类检索（Question Answering），这些检索方法只需要一个相关文档，对召回率不敏感，而是更关注搜索引擎检索到的相关文档是否排在结果列表的前面。MRR方法首先计算每一个查询的第一个相关文档位置的倒数，然后将所有倒数值求平均。例如一个包含三个查询词的测试集，前5结果分别为：

查询一结果：1.AN 2.AR 3.AN 4.AN 5.AR  查询二结果：1.AN 2.AR 3.AR 4.AR 5.AN  查询三结果：1.AR 2.AN 3.AN 4.AN 5.AR

其中AN表示不相关结果，AR表示相关结果。那么第一个查询的排序倒数（Reciprocal Rank）RR₁ = 1/2=0.5 ；第二个结果RR₂ = 1/2 = 0.5 ；注意倒数的值不变，即使查询二获得的相关结果更多。同理，RR₃= 1/1 = 1。对于这个测试集合，最终MRR=（RR₁+RR₂+RR₃）/ 3 = 0.67

然而对大部分检索应用来说，只有一条结果无法满足需求，对这种情况，需要更合适的方法来计算效果，其中最常用的是下述MAP方法。

MAP

MAP方法是Mean Average Precison，即平均准确率法的简称。其定义是求每个相关文档检索出后的准确率的平均值（即Average Precision）的算术平均值（Mean）。这里对准确率求了两次平均，因此称为Mean Average Precision。（注：没叫Average Average Precision一是因为难听，二是因为无法区分两次平均的意义）

MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高)，MAP就应该越高。如果系统没有返回相关文档，则准确率默认为0。

例如：假设有两个主题：

主题1有4个相关网页，主题2有5个相关网页。

某系统对于主题1检索出4个相关网页，其rank分别为1, 2, 4, 7；

对于主题2检索出3个相关网页，其rank分别为1,3,5。

对于主题1，平均准确率MAP计算公式为：

(1/1+2/2+3/4+4/7)/4=0.83。

对于主题2，平均准确率MAP计算公式为：

(1/1+2/3+3/5+0+0)/5=0.45。

则MAP= (0.83+0.45)/2=0.64。”

DCG方法

DCG是英文Discounted cumulative gain的简称，中文可翻译为“折扣增益值”。DCG方法的基本思想是：

每条结果的相关性分等级来衡量
考虑结果所在的位置，位置越靠前的则重要程度越高
等级高（即好结果）的结果位置越靠前则值应该越高，否则给予惩罚

我们首先来看第一条：相关性分级。这里比计算Precision时简单统计“准确”或“不准确”要更为精细。我们可以将结果细分为多个等级。比如常用的3级：Good（好）、Fair（一般）、Bad（差）。对应的分值rel为：Good:3 / Fair:2 / Bad:1 。一些更为细致的评估使用5级分类法：Very Good（明显好）、Good（好）、Fair（一般）、Bad（差）、Very Bad（明显差），可以将对应分值rel设置为：Very Good:2 / Good:1 / Fair:0 / Bad:-1 / Very Bad: -2

评判结果的标准可以根据具体的应用来确定，Very Good通常是指结果的主题完全相关，并且网页内容丰富、质量很高。而具体到每条

DCG的计算公式并不唯一，理论上只要求对数折扣因子的平滑性。我个人认为下面的DCG公式更合理，强调了相关性，第1、2条结果的折扣系数也更合理：

此时DCG前4个位置上结果的折扣因子（Discount factor）数值为：

i	log₂ (i+1)	1/log₂ (i+1)
1	1	1
2	1.59	0.63
3	2	0.5
4	2.32	0.43

取以2为底的log值也来自于经验公式，并不存在理论上的依据。实际上，Log的基数可以根据平滑的需求进行修改，当加大数值时（例如使用log₅ 代替log₂），折扣因子降低更为迅速，此时强调了前面结果的权重。

为了便于不同类型的query结果之间横向比较，以DCG为基础，一些评价系统还对DCG进行了归一，这些方法统称为nDCG（即 normalize DCG）。最常用的计算方法是通过除以每一个查询的理想值iDCG（ideal DCG）来进行归一，公式为：

求nDCG需要标定出理想情况的iDCG，实际操作的时候是异常困难的，因为每个人对“最好的结果”理解往往各不相同，从海量数据里选出最优结果是很困难的任务，但是比较两组结果哪个更好通常更容易，所以实践应用中，通常选择结果对比的方法进行评估。

怎样实现自动化的评估？

以上所介绍的搜索引擎量化评估指标，在Cranfield评估框架（Cranfield Evaluation Framework）中被广泛使用。业界知名的TREC（文本信息检索会议）就一直基于此类方法组织信息检索评测和技术交流。除了TREC外，一些针对不同应用设计的Cranfield评测论坛也在进行进行（如 NTCIR、IREX等）。

但Cranfield评估框架存在的问题是查询样例集合的标注上。利用手工标注答案的方式进行网络信息检索的评价是一个既耗费人力、又耗费时间的过程，只有少数大公司能够使用。并且由于搜索引擎算法改进、运营维护的需要，检索效果评价反馈的时间需要尽量缩短，因此自动化的评测方法对提高评估效率十分重要。最常用的自动评估方法是A/B testing系统。

A/B Testing

A/B Testing系统

A/B testing系统在用户搜索时，由系统来自动决定用户的分组号（Bucket id），通过自动抽取流量导入不同分支，使得相应分组的用户看到的是不同产品版本（或不同搜索引擎）提供的结果。用户在不同版本产品下的行为将被记录下来，这些行为数据通过数据分析形成一系列指标，而通过这些指标的比较，最后就形成了各版本之间孰优孰劣的结论。

在指标计算时，又可细分为两种方法，一种是基于专家评分的方法；一种是基于点击统计的方法。

专家评分的方法通常由搜索核心技术研发和产品人员来进行，根据预先设定的标准对A、B两套环境的结果给予评分，获取每个Query的结果对比，并根据nDCG等方法计算整体质量。

点击评分有更高的自动化程度，这里使用了一个假设：同样的排序位置，点击数量多的结果质量优于点击数量少的结果。（即A2表示A测试环境第2条结果，如果A2 > B2，则表示A2质量更好）。通俗的说，相信群众（因为群众的眼睛是雪亮的）。在这个假设前提下，我们可以将A/B环境前N条结果的点击率自动映射为评分，通过统计大量的Query点击结果，可以获得可靠的评分对比。

Interleaving Testing

另外2003年由Thorsten Joachims 等人提出的Interleaving testing方法也被广泛使用。该方法设计了一个元搜索引擎，用户输入查询词后，将查询词在几个著名搜索引擎中的查询结果随机混合反馈给用户，并收集随后用户的结果点击行为信息．根据用户不同的点击倾向性，就可以判断搜索引擎返回结果的优劣，

如下图所示，将算法A和B的结果交叉放置，并分流量进行测试，记录用户点击信息。根据点击分布来判断A和B环境的优劣。

Interleaving Testing评估方法

Joachims同时证明了Interleaving Testing评价方法与传统Cranfield评价方法的结果具有较高的相关性。由于记录用户选择检索结果的行为是一个不耗费人力的过程，因此可以便捷的实现自动化的搜索效果评估。

总结

没有评估就没有进步——对搜索效果的量化评测，目的是准确的找出现有搜索系统的不足（没有哪个搜索系统是完美的），进而一步一个脚印对算法、系统进行改进。本文为大家总结了常用的评价框架和评价指标。这些技术像一把把尺子，度量着搜索技术每一次前进的距离。

感谢张凯峰对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作，请邮件至editors@cn.infoq.com。也欢迎大家加入到InfoQ中文站用户讨论组中与我们的编辑和其他读者朋友交流。

胡满超 2012-12-19 11:03 发表评论