QUICK REVIEW

[论文解读] A Model for Learned Bloom Filters, and Optimizing by Sandwiching

Michael Mitzenmacher|arXiv (Cornell University)|Jan 3, 2019

Caching and Content Delivery参考文献 10被引用 63

一句话总结

本文对学习型 Bloom filters 进行形式化建模，分析其保证与误报，提出 sandwiching 优化，并扩展到学习型 Bloomier filters。

ABSTRACT

Recent work has suggested enhancing Bloom filters by using a pre-filter, based on applying machine learning to determine a function that models the data set the Bloom filter is meant to represent. Here we model such learned Bloom filters,, with the following outcomes: (1) we clarify what guarantees can and cannot be associated with such a structure; (2) we show how to estimate what size the learning function must obtain in order to obtain improved performance; (3) we provide a simple method, sandwiching, for optimizing learned Bloom filters; and (4) we propose a design and analysis approach for a learned Bloomier filter, based on our modeling approach.

研究动机与目标

澄清学习型 Bloom filters 相对于标准 Bloom filters 的保障与局限。
建立一个形式化模型以估计为实现改进性能所需的学习函数大小。
提出并分析夹层优化（在学习函数周围放置初始和备份 Bloom filters）。
将建模方法扩展到学习型 Bloomier filters 及相关结构。

提出的方法

将学习型 Bloom filter 建模为一个三部分结构：一个学习函数 f，一个阈值 tau，以及一个备份 Bloom filter B。
推导相对于查询分布的学习型 Bloom filter 的误报率模型。
表明夹层化（在 f 之前的预筛选 Bloom filter 和之后的备份筛选器）可以降低误报，并分析最优位分配。
给出在预算约束下比较学习型 Bloom filters 与标准 Bloom filters 的公式。
讨论鲁棒性与实际考量，包括插入、删除以及数据集变化时的再学习。

实验结果

研究问题

RQ1关于学习型 Bloom filters 相对于标准 Bloom filters 可以给出哪些保障？
RQ2在给定预算下应如何选择学习函数的大小以实现性能提升？
RQ3夹层化是否能改善误报率，以及应如何在两个 Bloom filters 之间分配比特？
RQ4分析如何扩展到学习型 Bloomier filters 及相关数据结构？
RQ5在查询流的分布发生变化时，学习型 Bloom filters 在何种条件下具备鲁棒性？

主要发现

一个形式化模型表明学习型 Bloom filters 的误报与查询分布相关，在合适的数据分布下可优于标准 Bloom filters。
给定备份过滤器大小时，推导出一个明确的误报率函数 Fp+(1−Fp)α^{b/Fn} 针对学习型 Bloom filter。
夹层化—在学习函数之前放置初始 Bloom filter，在之后放置备份 Bloom filter—可降低误报，在某些情形下，保持最优备份大小与总体预算无关。
夹层配置的最优预算将固定数量的比特分配给备份过滤器，其余比特分配给初始过滤器，从而提高性能。
该框架可推广到学习型 Bloomier filters，允许类似的分析与优化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。