布隆过滤器原理及实现

INnoVation-V2 / 2023-08-23 / 原文

1. 原理

布隆过滤器拥有K个哈希函数，当一个元素要加入布隆过滤器时，会使用K个哈希函数对其进行计算，得到K个哈希值，然后根据哈希值，在一维数组中把其对应下标的值置位1。

要判断某个数是否在布隆过滤器中，就进行K次哈希计算，得到哈希值，然后在位数组中判断哈希值对应位置是否都为1，如果都为1，就说明这个值可能在布隆过滤器中，需要进一步确认。

如果一个值不在过滤器中，那么他一定不存在，如果一个值在过滤器中，他并不一定存在，需要进一步确认

2. 误报率

误报率：一个不存在的值，其K个Hash值所对应位置都为1的概率。

推导

解释

m: 过滤器位数组长度
n：插入元素的个数
k：哈希函数的个数
p：假阳性(误报)概率

假定

位数组长m位
哈希函数对每个位置等概率插入
一共K个哈希函数
向bloom过滤器中插入n个值

那么

任意一位被设置为1的概率为\(\frac{1}{m}\)
不被设置为1的概率就是\(1-\frac{1}{m}\)
经过K个哈希函数，仍未被设置为1的概率就是\((1-\frac{1}{m})^k\)
插入n个值后，仍未被设置为1的概率是\((1-\frac{1}{m})^{kn}\)

可变形为\(((1-\frac{1}{m})^{-m})^\frac{-kn}{m}\)

对其中的\((1-\frac{1}{m})^{-m}\)进行变形

\[(1-\frac{1}{m})^{-m} \\ 令t = -m,有(1+\frac{1}{t})^t \\ 当t足够大时，由e的定义 \\ e=\displaystyle\lim_{x->\infty}(1+\frac{1}{x})^x \\ 所以, \displaystyle\lim_{m->\infty}(1-\frac{1}{m})^{-m} = e \\ \\ 因此, ((1-\frac{1}{m})^{-m})^\frac{-kn}{m} \approx e^{\frac{-kn}{m}} \]

被设置为1的概率就是

\(1-e^{\frac{-kn}{m}}\)
现在要误报率，即K个散列函数计算出的位置的值都是1，这个概率是

\(p = (1-e^{\frac{-kn}{m}})^k\) --公式1

随着m(位数组大小)的增加，假阳性概率会下降，同时随着插入元素个数n的增加，假阳性概率又会上升。

人们对上述公式进行分析后发现，对于给定的m和n，当 k=\(\frac{m}{n}\ln2\approx\frac{m}{n}*0.7\) 的时候p最小

将上述k的最佳值带入公式1，可得

\({\displaystyle p =\left(1-e^{-({\frac {m}{n}}\ln 2){\frac {n}{m}}}\right)^{{\frac { m}{n}}\ln 2}}\)

化简可得\(m=-\frac{n\ln^p}{(\ln2)^2}\)，由此得出m的最佳值

上述公式怎么用？

当创建布隆过滤器时，用户需要提供预计插入的元素个数n和可接受的误报率p

通过n和p算出m
通过n和m算出k

3. golang实现

仿照guava完成，hash函数用的是golang提供，代码很简单，不到100行

https://github.com/INnoVationv2/corekv_diy/tree/bloom-filter

布隆过滤器原理及实现更多相关文章

Redis持久化机制（面试考点）与位图API

爬虫--识别验证码

TZYLT's 2024CSP-S游记

「CSP2024」游记

js模拟构造函数的实现过程

命令拼接技巧

SD NAND 与 SPI NAND

C语言中的编译过程详解

step7 V5.x上的SCL

yolo --- 核心思想

一些学科笑话

NOIP2024模拟赛20 & 11.1 小记

20241101 数据结构与算法期中机试收获

什么是IT技术

即将到来！

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

ubuntu 24.04 部署 mysql 8.4.3 LTS

随机推荐

什么是IT技术

即将到来！

2024/11/1日日志关于JavaScript简介&引入方式以及基础语法的学习

舍得-时间-工作是人的一生最重要的事情-自己要有私房钱-人的一生最重要的事情是书写自己的人生

2.TiUP 部署 DM 集群

原型模式的C++实现

python bytecode解析

09-XSS键盘监听、cookie窃取&文件上传绕过

ubuntu 24.04 部署 mysql 8.4.3 LTS

国标GB28181公网平台LiteGBS国标GB28181视频平台建筑工地无线视频联网监控系统方案

imes完工下线

android 13 更改手机信号调整

BFS(Breath First Search 广度优先搜索)

Visual Studio Code（VSCode）中设置中文界面

影响黄金价格大幅波动的因素主要有哪些？

winform用Dev的TreeList滚动到指定节点的位置

Angular 18 上手开发

ansible进阶与自动化

国标GB28181设备管理软件LiteGBS国标GB28181-2016平台构建雪亮工程视频监控系统

热门话题

Ethernaut Level 11: Elevator Attack and Blockchain Interaction

快速部署开源spug运维平台的Docker安装指南

驱动调试之printk的原理与使用

计算机思维模型及其应用

华为云发布代码大模型PanGu-Coder2，实现高效代码生成

Linux多硬盘数据存储和分区操作

构建高可用架构: 分层冗余与自动故障转移

LoRA：高效调参的大语言模型适应方法

《分布式系统的基本原理及互联网分层架构的本质》

Hadoop写流程解析

Java架构师的系统架构设计方法论中的规范要点

使用observeDOM解决BetterScroll插件在移动端无法滑动的问题

互联网一致性架构设计实践

高并发系统架构与水平扩展

混合应用的崛起：跨平台开发取代原生应用

穗舟网（www.seizhou.com）

本站除标明"本站原创"外所有文章版权归创作人所有，本站不承担任何法律责任和连带责任，如有冒犯请直接联系，我们将立即予以纠正并致歉。

Powered by WordPress · v1.0.0-alpha