QUICK REVIEW

[论文解读] Synthesizing Tabular Data using Generative Adversarial Networks

Lei Xu, Kalyan Veeramachaneni|arXiv (Cornell University)|Nov 27, 2018

Generative Adversarial Networks and Image Synthesis参考文献 41被引用 219

一句话总结

作者提出 TGAN，一种基于 LSTM 的 GAN，用于合成具有混合连续和离散变量的表格数据，在保持特征相关性和扩展到更大数据集方面优于传统统计生成器。研究表明在 TGAN 生成数据上训练的 ML 模型，其性能接近在真实数据上训练的模型。

ABSTRACT

Generative adversarial networks (GANs) implicitly learn the probability distribution of a dataset and can draw samples from the distribution. This paper presents, Tabular GAN (TGAN), a generative adversarial network which can generate tabular data like medical or educational records. Using the power of deep neural networks, TGAN generates high-quality and fully synthetic tables while simultaneously generating discrete and continuous variables. When we evaluate our model on three datasets, we find that TGAN outperforms conventional statistical generative models in both capturing the correlation between columns and scaling up for large datasets.

研究动机与目标

促使合成表格数据的需求，以促进数据共享、测试和安全探索。
开发能够处理表格数据中混合数值和分类特征的 GAN 生成器。
引入可逆变换和基于 KL 散度的正则化，以改善多模态和离散变量的生成。
证明在多个数据集上使用 TGAN 合成数据训练的模型，其性能可与使用真实数据训练的模型相当。
显示 TGAN 比竞争的合成数据方法更好地保留特征之间的相关性。

提出的方法

使用带注意力的基于 LSTM 的生成器逐列生成表格数据。
应用可逆变换：多模态数值特征使用高斯混合模型聚类；分类特征加噪声后进行独热编码并重新归一化。
输出包括连续变量值 (vi) 和聚类指示 (ui)，以及离散变量分布 (di)。
训练一个判别器（MLP），以区分真实数据与合成数据，并加入小批量多样性。
用 GAN 损失加 KL-divergence 项对生成器进行优化，使生成分布在离散和连续分量上与真实数据对齐。
利用后处理从生成的表示中重建原始特征类型。

实验结果

研究问题

RQ1是否可以将 GAN 模型定制为可靠地生成具有异质数值和分类特征的表格数据？
RQ2与 GC、BN-Id、BN-Co 等统计合成器相比，TGAN 能否更好地保持列间相关性？
RQ3在 TGAN 生成数据上训练的模型是否能达到与在真实数据上训练的模型相当的性能？
RQ4TGAN 是否可扩展到大型表格数据集，同时保持数据实用性和隐私考虑？
RQ5TGAN 在保持表格数据的边际分布和联合分布方面的表现如何？

主要发现

方法	Real	GC	BN-Id	BN-Co	TGAN
DT max_depth = 10	74.65	48.61	32.26	32.24	68.70
DT max_depth = 20	75.11	48.64	31.16	31.77	64.42
SVM	71.30	-	-	25.69	67.77
RF max_depth = 10, estimators = 10	59.04	-	-	-	51.42
RF max_depth = 20, estimators = 10	70.95	-	-	32.26	65.89
AdaBoost	74.10	-	-	32.27	70.08
MLP layer_sizes = (100, )	75.47	53.15	25.5	26.34	71.81
MLP layer_sizes = (200, 200)	73.94	-	-	32.14	68.75

TGAN 在捕捉列相关性和扩展到大数据集方面优于传统统计生成模型。
在 TGAN 生成数据上训练的机器学习模型，其性能更接近在真实数据上训练的模型，在 Census 上平均差距约为 5.7%，相比 GC 的 24.9% 和 BN-Co 的 43.3%，跨数据集。
TGAN 比 GC 和 BN-Co 更好地保持变量之间的互信息结构（NMI），通过 NMI 矩阵比较显示。
最近邻距离分析表明，TGAN 生成的数据的分布比竞争方法更接近真实数据。
在 Census、KDD99 和 Covertype 数据集上，当用于训练标准 ML 模型时，TGAN 一贯比 GC、BN-Co、BN-Id 基线获得更高的准确性。
在合成数据上训练时，TGAN 维持了不同 ML 模型的排序，使得基于合成数据的模型选择成为可能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。