Skip to main content
QUICK REVIEW

[论文解读] HoloClean: Holistic Data Repairs with Probabilistic Inference

Theodoros Rekatsinas, Xu Chu|arXiv (Cornell University)|Feb 2, 2017
Data Quality and Management参考文献 31被引用 57
一句话总结

HoloClean 将完整性约束、外部数据和统计信息整合到一个概率模型中,以在大规模数据上修复数据,在多样化数据集上实现约 90% 的精确度和超过 76% 的召回率,并在 F1 指标上比现有方法提升超过 2 倍。

ABSTRACT

We introduce HoloClean, a framework for holistic data repairing driven by probabilistic inference. HoloClean unifies existing qualitative data repairing approaches, which rely on integrity constraints or external data sources, with quantitative data repairing methods, which leverage statistical properties of the input data. Given an inconsistent dataset as input, HoloClean automatically generates a probabilistic program that performs data repairing. Inspired by recent theoretical advances in probabilistic inference, we introduce a series of optimizations which ensure that inference over HoloClean's probabilistic model scales to instances with millions of tuples. We show that HoloClean scales to instances with millions of tuples and find data repairs with an average precision of ~90% and an average recall of above ~76% across a diverse array of datasets exhibiting different types of errors. This yields an average F1 improvement of more than 2x against state-of-the-art methods.

研究动机与目标

  • 推动对将多种信号(完整性约束、外部数据和统计信息)结合在一起的整体数据清洗的需求。
  • 提出一个基于编译器的框架,自动生成用于数据修复的概率模型。
  • 实现可扩展的概率推断,以修复拥有数百万元组的大型数据集。
  • 在多样化数据集上展示在精确度、召回率和 F1 上相对于现有方法的经验性改进。

提出的方法

  • 从脏数据集和一组修复约束自动生成一个概率模型。
  • 将信号表示为图模型中的特征,并执行概率推断以修复单元格。
  • 通过编译步骤将信号转换为基于 DeepDive 的因子图,并为每个单元格建立随机变量。
  • 通过领域裁剪、按组接地和将硬约束放宽为先验的近似来优化接地和推断。
  • 通过经验风险最小化学习模型参数,并执行 Gibbs 采样以获得 MAP 修复。
  • 为修复提供边际概率,以便实现用户反馈和增量学习。

实验结果

研究问题

  • RQ1单一的概率框架是否能够有效地将完整性约束、外部数据和统计信号结合用于数据修复?
  • RQ2在百万级数据集上如何扩展接地和推断,同时保持修复质量?
  • RQ3为了可扩展性而将硬约束放宽为先验对修复精度有何影响?
  • RQ4将整体修复与依赖单一信号(约束、外部数据或统计信息)的方法在多样化数据集上的表现是否更优?

主要发现

  • HoloClean 的平均精确度约为 90%。
  • HoloClean 的平均召回率超过约 76%。
  • 在各数据集上,HoloClean 相对于最先进方法的平均 F1 值提升超过 2 倍。
  • 将所有信号结合比仅使用任一信号(仅约束、仅外部数据、或仅统计信息)获得更大的 F1 增益(例如在约束、外部数据和统计信息基线中均超过 2x 的提升)。
  • 由于接地/裁剪和近似技术,该方法可扩展到拥有数百万个元组的数据集。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。