Rss订阅

首页 »编程综合 » 数学之美系列二:数学的美系列 2十一:布隆过滤器(Bloom Filter) »正文

数学之美系列二:数学的美系列 2十一:布隆过滤器(Bloom Filter)

来源: 发布时间:星期一, 2010年1月25日浏览:0次评论:0

　　在日常生活中

包括在设计计算机软件Software时

我们经常要判断

个元素是否在

个集合中

比如在字处理软件Software中

需要检查

个英语单词是否拼写正确(也就是要判断它是否在已知

字典中)；在 FBI

个嫌疑人

名字是否已经在嫌疑名单上；在网络爬虫里

个网址是否被访问过等等

最直接

思路方法就是将集合中全部

元素存在计算机中

遇到

个新元素时

将它和集合中

元素直接比较即可

般来讲

计算机中

集合是用哈希表(hash table)来存储

它

好处是快速准确

缺点是费存储空间

当集合比较小时

这个问题不显著

但是当集合巨大时

哈希表存储效率低

问题就显现出来了

比如说

个象 Yahoo,Hotmail 和 Gmai 那样

公众电子邮件(email)提供商

总是需要过滤来自发送垃圾邮件

人(spamer)

垃圾邮件

个办法就是记录下那些发垃圾邮件

email 地址

由于那些发送者不停地在注册新

地址

全世界少说也有几十亿个发垃圾邮件

地址

将他们都存起来则需要大量

网络服务器

如果用哈希表

每存储

亿个 email 地址

就需要 1.6GB

内存(用哈希表实现

具体办法是将每

个 email 地址对应成

个 8字节

信息指纹

然后将这些信息指纹存入哈希表

由于哈希表

存储效率

般只有 50%

因此

个 email 地址需要占用十 6个字节

亿个地址大约要 1.6GB

即十 6亿字节

内存)

因此存贮几十亿个邮件地址可能需要上百 GB

内存

除非是超级计算机

般服务器是无法存储

　　今天

我们介绍

种称作布隆过滤器

数学工具

它只需要哈希表 1/8 到 1/4

大小就能解决同样

问题

　　布隆过滤器是由巴顿.布隆于

9 7零年提出

它实际上是

个很长

2进制向量和

系列随机映射

我们通过上面

例子来介绍说明起工作原理

　　假定我们存储

亿个电子邮件地址

我们先建立

个十 6亿 2进制(比特)

即两亿字节

向量

然后将这十 6亿个 2进制全部设置为零

对于每

个电子邮件地址 X

我们用 8个区别

随机数产生器(F1,F2, ...,F8) 产生 8个信息指纹(f1, f2, ..., f8)

再用

个随机数产生器 G 把这 8个信息指纹映射到 1 到十 6亿中

8个自然数 g1, g2, ...,g8

现在我们把这 8个位置

2进制全部设置为

当我们对这

亿个 email 地址都进行这样

处理后

个针对这些 email 地址

布隆过滤器就建成了

(见下图)

　　现在

让我们看看如何用布隆过滤器来检测

个可疑

电子邮件地址 Y 是否在黑名单中

我们用相同

8个随机数产生器(F1, F2, ..., F8)对这个地址产生 8个信息指纹 s1,s2,...,s8

然后将这 8个指纹对应到布隆过滤器

8个 2进制位

分别是 t1,t2,...,t8

如果 Y 在黑名单中

显然

t1,t2,..,t8 对应

8个 2进制

定是

这样在遇到任何在黑名单中

电子邮件地址

我们都能准确地发现

　　布隆过滤器决不会漏掉任何

个在黑名单中

可疑地址

但是

它有

条不足的处

也就是它有极小

可能将

个不在黑名单中

电子邮件地址判定为在黑名单中

有可能某个好

邮件地址正巧对应个 8个都被设置成

2进制位

好在这种可能性很小

我们把它称为误识概率

在上面

例子中

误识概率在万分的

以下

　　布隆过滤器

好处在于快速

省空间

但是有

定

误识别率

常见

补救办法是在建立

个小

白名单

存储那些可能别误判

邮件地址

标签：数学之美系列 bloomfilter 数学之美系列十一数学之美系列二

专注于互联网--专注于架构

首页 »编程综合 » 数学之美系列二:数学的美系列 2十一:布隆过滤器(Bloom Filter) »正文

数学之美系列二:数学的美系列 2十一:布隆过滤器(Bloom Filter)

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章