Skip to main content
QUICK REVIEW

[论文解读] Modeling Tabular data using Conditional GAN

Lei Xu, Maria Skoularidou|arXiv (Cornell University)|Jul 1, 2019
Generative Adversarial Networks and Image Synthesis参考文献 28被引用 94
一句话总结

CTGAN 引入了一个带有模式特异性归一化和按采样训练的条件生成器,用以建模混合离散-连续的表格数据,在大多数指标上优于贝叶斯基线和若干GAN变体,在真实数据集上表现更好。

ABSTRACT

Modeling the probability distribution of rows in tabular data and generating realistic synthetic data is a non-trivial task. Tabular data usually contains a mix of discrete and continuous columns. Continuous columns may have multiple modes whereas discrete columns are sometimes imbalanced making the modeling difficult. Existing statistical and deep neural network models fail to properly model this type of data. We design TGAN, which uses a conditional generative adversarial network to address these challenges. To aid in a fair and thorough comparison, we design a benchmark with 7 simulated and 8 real datasets and several Bayesian network baselines. TGAN outperforms Bayesian methods on most of the real datasets whereas other deep learning methods could not.

研究动机与目标

  • 激励在混合类型表格数据(连续与离散)中建模联合分布的挑战,存在多峰性和类别不平衡等问题。
  • 提出 CTGAN,一个为表格数据定制的条件GAN,以解决非高斯分布的连续变量和离散不平衡。
  • 引入训练阶段技术(模式特异性归一化、条件生成器、按采样训练)以提高保真度和覆盖度。
  • 提供基准套件(SDGym),将 CTGAN 与贝叶斯网络及其他基于GAN的方法在模拟数据和真实数据集上进行对比。

提出的方法

  • 使用变分高斯混合模型进行模式特异性归一化,以识别并表示每个连续列的多种模式。
  • 具有条件向量的条件生成器,强制在离散属性值条件下进行生成,包括一个交叉熵惩罚以强制正确条件化。
  • 训练按采样策略,通过按每个离散列的对数频率对条件进行采样,来平衡对罕见离散值的暴露。
  • 使用带梯度惩罚的 Wasserstein GAN (WGAN-GP) 及 PacGAN 框架以稳定训练并缓解模式崩溃。
  • 网络设计采用全连接层(表格数据无局部结构)并在生成器中使用批量归一化和 ReLU 激活,在判别器中使用 leaky ReLU 与 dropout。

实验结果

研究问题

  • RQ1如何建模具有混合连续和离散特征的表格数据,以捕获多峰连续分布和高度不平衡的离散类别?
  • RQ2是否为表格数据定制的条件GAN能否在多样数据集上优于贝叶斯网络基线和现有的GAN方法?
  • RQ3模式特异性归一化和训练按采样是否提升似然度保真度及对合成表格数据的下游ML性能?
  • RQ4条件生成器能否产生以特定离散值为条件的数据用于数据增强?

主要发现

方法GM_Syn_LsynGM_Syn_LtestBN_Syn_LsynBN_Syn_Ltestclfreg
Identity-2.61-2.61-9.33-9.360.7430.14
CLBN-3.06-7.31-10.66-9.920.382-6.28
PrivBN-3.38-12.42-12.97-10.900.225-4.49
MedGAN-7.27-60.03-11.14-12.150.137-8.80
VEEGAN-10.06-4.22-15.40-13.860.143-6.50e6
TableGAN-8.24-4.12-11.84-10.470.162-3.09
TVAE-2.65-5.42-6.76-9.590.519-0.20
CTGAN-5.72-3.40-11.67-10.600.469-0.43
Real-9.33-9.36-9.33-9.360.7430.14
  • CTGAN 在基准研究中的大多数真实数据集上优于贝叶斯网络。
  • 模式特异性归一化相比最小-最大或固定GMM设置,改善了对多模态连续列的建模。
  • 具有训练按采样的条件生成器能有效处理不平衡的离散列,在诸如信用数据集等目标上取得良好表现。
  • CTGAN 和 TVAE 在真实数据集上均优于某些基线,CTGAN 实现了有竞争力的结果,有时甚至超过 TVAE。
  • 提议的基准套件(SDGym)使在多个数据集和评估指标下对合成表格数据生成进行公平比较。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。