Skip to main content
QUICK REVIEW

[论文解读] REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers

Aivin V. Solatorio, Olivier Dupriez|arXiv (Cornell University)|Feb 4, 2023
Time Series Analysis and Forecasting被引用 25
一句话总结

REaLTabFormer 将基于 GPT-2 的自回归建模应用于父表(非关系表),并对孩子表(关系表)使用 Seq2Seq 变换器,同时包含隐私保护和过拟合检测,以合成现实感强的关系型表格数据。

ABSTRACT

Tabular data is a common form of organizing data. Multiple models are available to generate synthetic tabular datasets where observations are independent, but few have the ability to produce relational datasets. Modeling relational data is challenging as it requires modeling both a "parent" table and its relationships across tables. We introduce REaLTabFormer (Realistic Relational and Tabular Transformer), a tabular and relational synthetic data generation model. It first creates a parent table using an autoregressive GPT-2 model, then generates the relational dataset conditioned on the parent table using a sequence-to-sequence (Seq2Seq) model. We implement target masking to prevent data copying and propose the $Q_δ$ statistic and statistical bootstrapping to detect overfitting. Experiments using real-world datasets show that REaLTabFormer captures the relational structure better than a baseline model. REaLTabFormer also achieves state-of-the-art results on prediction tasks, "out-of-the-box", for large non-relational datasets without needing fine-tuning.

研究动机与目标

  • 阐明合成关系型表格数据的需求,并在保持数据有用性的同时保护隐私。
  • 提出一个统一的基于变换器的框架(REaLTabFormer),用于生成非关系型和关系型表格数据。
  • 引入隐私保护和过拟合检测机制,以防止数据复制和过拟合。
  • 展示 REaLTabFormer 在真实数据集上超越基线,并在大型非关系型数据集上提供强劲的开箱即用性能。

提出的方法

  • 使用自回归的 GPT-2 对非关系型(父)表进行建模,以学习 P(X|前列)。
  • 使用 Seq2Seq 编码器-解码器对关系型(子)表进行建模,采用冻结的 GPT-2 父模型作为编码器,将子表生成条件化为父表观测。
  • 使用每列固定词汇表对表格数据进行编码,以提高效率并以最少的变换处理列数据类型。
  • 通过目标掩码(在训练过程中随机掩码目标)和约束的采样生成策略来缓解数据复制。
  • 使用带自举阈值的 Q_delta 统计量检测过拟合和数据复制,从而在不需要留出集的情况下实现提前停止。
  • 提供开源实现(pip install realtabformer),便于研究人员复现结果。

实验结果

研究问题

  • RQ1REaLTabFormer 是否能够比基线关系模型更准确地捕捉父表与子表之间的关系结构?
  • RQ2在大型非关系型数据集上,模型在无需微调的情况下是否提供了最先进的预测效用?
  • RQ3隐私保护技术(目标掩码、过拟合检测)在生成过程中防止数据复制方面有多有效?
  • RQ4在真实世界数据集上,REaLTabFormer 相较于开源基线在非关系和关系数据生成方面的表现如何?

主要发现

  • REaLTabFormer 在关系数据集(如 Rossmann、Airbnb)上对关系结构的捕捉比 SDV-HMA 基线更准确。
  • 对于非关系型数据,REaLTabFormer 在大型数据集上无需任务特定微调便可达到具有竞争力或最先进的机器学习效能。
  • 模型的基于判别器的真实感与基于扩散的基线相当,表明合成数据的高度真实感。
  • 目标掩码和基于 Q_delta 的过拟合检测有效缓解数据复制,并实现有原则的提前停止。
  • 在生成时使用固定列词汇表的受限采样会得到接近零的无效样本。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。