Skip to main content
QUICK REVIEW

[论文解读] Learned Cardinalities: Estimating Correlated Joins with Deep Learning

Andreas Kipf, Thomas Kipf|arXiv (Cornell University)|Sep 3, 2018
Data Management and Algorithms参考文献 30被引用 162
一句话总结

本文提出 MSCN,一种多集卷积网络,学习预测连接-跨相关性以进行基数估计,并辅以物化样本信号,在 IMDb 数据上相对于基线显示出鲁棒的改进。它在中位数精度方面具有竞争力,在具有挑战性的 0-tuple 情况下表现强劲。

ABSTRACT

We describe a new deep learning approach to cardinality estimation. MSCN is a multi-set convolutional network, tailored to representing relational query plans, that employs set semantics to capture query features and true cardinalities. MSCN builds on sampling-based estimation, addressing its weaknesses when no sampled tuples qualify a predicate, and in capturing join-crossing correlations. Our evaluation of MSCN using a real-world dataset shows that deep learning significantly enhances the quality of cardinality estimation, which is the core problem in query optimization.

研究动机与目标

  • 提升对复杂、相关连接的基数估计以帮助查询优化的动机。
  • 提出一个利用基于集合的查询表示和采样信号来捕获连接相关性的神经模型。
  • 减少传统基于采样的方法在 0-tuple 情况下的错误。
  • 展示 MSCN 在包括未见连接顺序和 JOB-类查询的工作负载上的鲁棒性和泛化能力。

提出的方法

  • 将查询表示为三个集合:表、连接、谓词,对每个元素使用独热编码并可选地提供采样位图。
  • 引入 MSCN:对每个集合的每个元素计算 MLP 表示,取平均后连接结果,并通过最终的输出 MLP 预测基数。
  • 通过对目标进行对数变换并映射到 [0,1] 来归一化目标;使用 Adam 优化器训练以最小化平均 q-误差。
  • 用物化的基表样本信息(计数和位图)丰富训练数据,帮助学习连接跨相关性。
  • 用来自模式和数据的合成查询进行训练,然后在合成、尺度和 JOB-轻量工作负载上进行评估以测试泛化能力。

实验结果

研究问题

  • RQ1一个基于集合的深度学习模型是否能够准确估计具有相关连接的查询的基数?
  • RQ2引入物化样本信息(计数/位图)是否改进估计,特别是在 0-tuple 情况下?
  • RQ3模型对未见的连接顺序和与训练数据不同的工作负载的泛化能力如何?
  • RQ4模型大小、训练成本和预测延迟之间的权衡是什么?

主要发现

  • 与 IBJS 相比,MSCN 的中位数 q-误差具有竞争力,并且在合成工作负载的端分布精度显著更优(例如:MSCN 的中位数 q-误差为 1.18,而 IBJS 为 1.09)。
  • 在 0-tuple 情况下,MSCN 的表现远超纯粹采样方法(例如 MSCN 中位数 2.94 vs PostgreSQL 4.78 与 Random Sampling 9.13)。
  • 加入位图和样本计数可以提升基表和连接的估计,在不同配置下显著降低 95th/99th 百分位的 q-误差。
  • 对更多连接的泛化是可行的:MSCN 对训练中未见的 3- 及 4-连接查询显示出有意义的精度提升(例如 95 百分位 q-误差 虽有所上升,但仍远低于某些基线;存在异常值)。
  • JOB-轻量结果表明 MSCN 可以泛化到来自训练生成器之外的工作负载(中位数 3.82,95 百分位 362;与基线竞争力)。
  • 模型成本适中(1.6–2.6 MiB),推理在几毫秒内完成,训练在约 75 次迭代、每次约 39 分钟时收敛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。