QUICK REVIEW

[論文レビュー] Modeling Tabular data using Conditional GAN

Lei Xu, Maria Skoularidou|arXiv (Cornell University)|Jul 1, 2019

Generative Adversarial Networks and Image Synthesis参考文献 28被引用数 94

ひとこと要約

CTGAN はモード特異的正規化とトレーニング・バイ・サンプリングを用いて、混合型表形式データ（連続と離散）の結合分布をモデリングし、実データセットの多くの指標でベイジアンベースラインやいくつかの GAN 派生を上回る。

ABSTRACT

Modeling the probability distribution of rows in tabular data and generating realistic synthetic data is a non-trivial task. Tabular data usually contains a mix of discrete and continuous columns. Continuous columns may have multiple modes whereas discrete columns are sometimes imbalanced making the modeling difficult. Existing statistical and deep neural network models fail to properly model this type of data. We design TGAN, which uses a conditional generative adversarial network to address these challenges. To aid in a fair and thorough comparison, we design a benchmark with 7 simulated and 8 real datasets and several Bayesian network baselines. TGAN outperforms Bayesian methods on most of the real datasets whereas other deep learning methods could not.

研究の動機と目的

混合型の表形式データ（連続と離散）における結合分布のモデリングが、マルチモーダリティやクラス不均衡といった課題を伴うことを動機づける。
ノンガウスな連続分布や離散的不均衡に対処するために、表形式データに特化した条件付き GAN である CTGAN を提案する。
忠実度とカバレッジを向上させるための訓練時手法（モード特異的正規化、条件付き生成器、トレーニング時サンプリング）を導入する。
CTGAN をベイズネットワークや他の GAN ベース手法と、シミュレートデータと実データの両方を横断して比較するベンチマーキングスイート SDGym を提供する。

提案手法

連続列ごとに複数のモードを識別・表現するため、変分ガウス混合モデルを用いたモード特異的正規化。
離散属性値に基づく生成を課す条件付けベクトルを備えた条件付き生成器。正しい条件付けを強制するためのクロスエントロピーペナルティを含む。
各離散列の対数頻度に従って条件をサンプリングすることで、希少な離散値への露出をバランスさせるトレーニング・バイ・サンプリング戦略。
訓練の安定化とモード崩壊の緩和を図るため、勾配ペナルティ付き Wasserstein GAN (WGAN-GP) と PacGAN フレームワーク。
全結合層を用いたネットワーク設計（表形式データには局所的構造がない）で、生成器はバッチ正規化と ReLU、識別器は Leaky ReLU とドロップアウト。

実験結果

リサーチクエスチョン

RQ1混合型の連続・離散特徴を持つ表形式データを、連続分布のマルチモーダリティと高度な不均衡離散カテゴリを捉えるようにモデル化するにはどうすればよいか？
RQ2表形式データに特化した条件付き GAN が、ベイズネットワークのベースラインや既存の GAN アプローチを多様なデータセットで上回ることができるか？
RQ3モード特異的正規化と訓練時サンプリングは、疑似データの尤度の忠実度と下流の ML パフォーマンスを向上させるか？
RQ4特定の離散値で条件付けされたデータを生成する条件付き生成器は、データ拡張に有用か？

主な発見

Method	GM_Syn_Lsyn	GM_Syn_Ltest	BN_Syn_Lsyn	BN_Syn_Ltest	clf	reg
Identity	-2.61	-2.61	-9.33	-9.36	0.743	0.14
CLBN	-3.06	-7.31	-10.66	-9.92	0.382	-6.28
PrivBN	-3.38	-12.42	-12.97	-10.90	0.225	-4.49
MedGAN	-7.27	-60.03	-11.14	-12.15	0.137	-8.80
VEEGAN	-10.06	-4.22	-15.40	-13.86	0.143	-6.50e6
TableGAN	-8.24	-4.12	-11.84	-10.47	0.162	-3.09
TVAE	-2.65	-5.42	-6.76	-9.59	0.519	-0.20
CTGAN	-5.72	-3.40	-11.67	-10.60	0.469	-0.43
Real	-9.33	-9.36	-9.33	-9.36	0.743	0.14

CTGAN はベイズネットワークよりも多くの実データセットで優れた性能を示した。
モード特異的正規化は、最小最大正規化や固定-GMM 設定と比較して、マルチモーダルな連続列のモデリングを改善した。
訓練時サンプリングを取り入れた条件付き生成器は、希少な離散列を含むカラムを効果的に扱い、クレジットデータセットなどのターゲットで高い性能を達成した。
CTGAN と TVAE はいくつかのベースラインより実データセットで上回る傾向を示し、CTGAN は競争力のある結果を出し、時には TVAE を上回ることもある。
提案されたベンチマーキングスイートSDGymは、複数のデータセットと評価指標で合意公平な比較を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。