Skip to main content
QUICK REVIEW

[论文解读] A Model for Learned Bloom Filters, and Optimizing by Sandwiching

Michael Mitzenmacher|arXiv (Cornell University)|Jan 3, 2019
Caching and Content Delivery参考文献 10被引用 63
一句话总结

本文对学习型 Bloom filters 进行形式化建模,分析其保证与误报,提出 sandwiching 优化,并扩展到学习型 Bloomier filters。

ABSTRACT

Recent work has suggested enhancing Bloom filters by using a pre-filter, based on applying machine learning to determine a function that models the data set the Bloom filter is meant to represent. Here we model such learned Bloom filters,, with the following outcomes: (1) we clarify what guarantees can and cannot be associated with such a structure; (2) we show how to estimate what size the learning function must obtain in order to obtain improved performance; (3) we provide a simple method, sandwiching, for optimizing learned Bloom filters; and (4) we propose a design and analysis approach for a learned Bloomier filter, based on our modeling approach.

研究动机与目标

  • 澄清学习型 Bloom filters 相对于标准 Bloom filters 的保障与局限。
  • 建立一个形式化模型以估计为实现改进性能所需的学习函数大小。
  • 提出并分析夹层优化(在学习函数周围放置初始和备份 Bloom filters)。
  • 将建模方法扩展到学习型 Bloomier filters 及相关结构。

提出的方法

  • 将学习型 Bloom filter 建模为一个三部分结构:一个学习函数 f,一个阈值 tau,以及一个备份 Bloom filter B。
  • 推导相对于查询分布的学习型 Bloom filter 的误报率模型。
  • 表明夹层化(在 f 之前的预筛选 Bloom filter 和之后的备份筛选器)可以降低误报,并分析最优位分配。
  • 给出在预算约束下比较学习型 Bloom filters 与标准 Bloom filters 的公式。
  • 讨论鲁棒性与实际考量,包括插入、删除以及数据集变化时的再学习。

实验结果

研究问题

  • RQ1关于学习型 Bloom filters 相对于标准 Bloom filters 可以给出哪些保障?
  • RQ2在给定预算下应如何选择学习函数的大小以实现性能提升?
  • RQ3夹层化是否能改善误报率,以及应如何在两个 Bloom filters 之间分配比特?
  • RQ4分析如何扩展到学习型 Bloomier filters 及相关数据结构?
  • RQ5在查询流的分布发生变化时,学习型 Bloom filters 在何种条件下具备鲁棒性?

主要发现

  • 一个形式化模型表明学习型 Bloom filters 的误报与查询分布相关,在合适的数据分布下可优于标准 Bloom filters。
  • 给定备份过滤器大小时,推导出一个明确的误报率函数 Fp+(1−Fp)α^{b/Fn} 针对学习型 Bloom filter。
  • 夹层化—在学习函数之前放置初始 Bloom filter,在之后放置备份 Bloom filter—可降低误报,在某些情形下,保持最优备份大小与总体预算无关。
  • 夹层配置的最优预算将固定数量的比特分配给备份过滤器,其余比特分配给初始过滤器,从而提高性能。
  • 该框架可推广到学习型 Bloomier filters,允许类似的分析与优化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。