Bloom filter：大数据快速排除算法(zz)

dyh — Fri, 25 Jan 2013 08:15:00 GMT

ZZ from

http://www.xiuwz.com/site/tech-bloom-filter/

Bloom filter是由 Howard Bloom在 1970 年提出的一种多哈希函数映射的快速查找算法，该算法能够在非常快速的判定某个元素是否在一个集合之外。这种检测只会对在集合内的数据错判，而不会对不是集合内的数据进行错判，这样每个检测请求返回有“在集合内（可能错误）”和“不在集合内（绝对不在集合内）”两种情况。目前Bloom filter在分布式系统中有着广泛的使用，比如说GFS/HDFS/Cassandra/Bigtable/Squid。

实例

为了说明Bloom filter存在的重要意义，举一个实例：

假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环”，就需要知道蜘蛛已经访问过那些URL。给一个URL，怎样知道蜘蛛是否已经访问过呢？稍微想想，就会有如下几种方案：

将访问过的URL保存到数据库。
用HashSet将访问过的URL保存起来。那只需接近O(1)的代价就可以查到一个URL是否被访问过了。
URL经过MD5或SHA-1等单向哈希后再保存到HashSet或数据库。
Bit-Map方法。建立一个BitSet，将每个URL经过一个哈希函数映射到某一位。

方法1~3都是将访问过的URL完整保存，方法4则只标记URL的一个映射位。

以上方法在数据量较小的情况下都能完美解决问题，但是当数据量变得非常庞大时问题就来了。

方法1的缺点：数据量变得非常庞大后关系型数据库查询的效率会变得很低。而且每来一个URL就启动一次数据库查询是不是太小题大做了？

方法2的缺点：太消耗内存。随着URL的增多，占用的内存会越来越多。就算只有1亿个URL，每个URL只算50个字符，就需要5GB内存。

方法3：由于字符串经过MD5处理后的信息摘要长度只有128Bit，SHA-1处理后也只有160Bit，因此方法3比方法2节省了好几倍的内存。

方法4消耗内存是相对较少的，但缺点是单一哈希函数发生冲突的概率太高。还记得数据结构课上学过的Hash表冲突的各种解决方法么？若要降低冲突发生的概率到1%，就要将BitSet的长度设置为URL个数的100倍。

实质上上面的算法都忽略了一个重要的隐含条件：允许小概率的出错，不一定要100%准确！也就是说少量url实际上没有没网络蜘蛛访问，而将它们错判为已访问的代价是很小的——大不了少抓几个网页呗。

Bloom Filter的算法

下面引入本篇的主角——Bloom filter。其实上面方法4的思想已经很接近Bloom filter了。方法四的致命缺点是冲突概率高，为了降低冲突的概念，Bloom filter使用了多个哈希函数，而不是一个。

Bloom filter采用的是哈希函数的方法，将一个元素映射到一个 m 长度的阵列上的一个点，当这个点是 1 时，那么这个元素在集合内，反之则不在集合内。这个方法的缺点就是当检测的元素量很多时候可能有冲突，解决方法就是使用 k 个哈希函数对应 k 个点，如果所有点都是 1 的话，那么元素在集合内，如果有 0 的话，元素则不再集合内。

Bloom filter 特点

Bloom filter优点就是它的插入和查询时间都是常数，另外它查询元素却不保存元素本身，具有良好的安全性。它的缺点也是显而易见的，当插入的元素越多，错判“在集合内”的概率就越大了，另外 Bloom filter也不能删除一个元素，因为多个元素哈希的结果可能在 Bloom filter 结构中占用的是同一个位，如果删除了一个比特位，可能会影响多个元素的检测。

其实要做到能够删除一个元素，就需要修改下算法，把bitmap修改成计数，这会带来另外一个缺点：内存浪费。

dyh 2013-01-25 16:15 发表评论

可视化graph的工具: GraphViz

dyh — Tue, 06 Mar 2007 13:35:00 GMT

可视化graph的工具: GraphViz

这套工具可以把有向图(digraph)和无向图(graph)在平面内展现出来，方便观察。GraphViz使用DOT(一种图形描述语言)描述图，然后有解释工具dot生成图像文件。dot支持多种图像文件，包括非矢量的gif、矢量的ps、svg等约20多种格式。DOT语言也非常简单易学。举个例子：

digraph G {
size = "4,4"
main [shape=box]; /* this is a comment */
main -> parse [weight=8];
parse -> execute;
main -> init [style=dotted];
main -> cleanup;
execute -> { make_string; printf}
init -> make_string;
edge [color=red]; // so is this
main -> printf [style=bold, label="100 times"];
node [shape=box, style=filled, color=".7.3 1.0"];
execute -> compare;
}

存为test.dot，然后执行
> dot test.dot -Tpng -o test.png
就生成了graph的图像文件。很方便哦。

实际上GraphViz还可以画出很多漂亮的“图”。比如ER图，hash table示意图。更多请参考：http://www.graphviz.org/Gallery.php。以后可以考虑用GraphViz画一些示意图，既方便有专业，还很容易转成ps(eps)。继续研究研究。

dyh 2007-03-06 21:35 发表评论

C++博客-welcome-随笔分类-Other

Bloom filter：大数据快速排除算法(zz)

实例

Bloom Filter的算法

Bloom filter 特点

可视化graph的工具: GraphViz

可视化graph的工具: GraphViz