QUICK REVIEW

[論文レビュー] Generating Multi-Categorical Samples with Generative Adversarial Networks

Ramiro Daniel Camino, Christian Hammerschmidt|arXiv (Cornell University)|Jul 3, 2018

Generative Adversarial Networks and Image Synthesis参考文献 14被引用数 43

ひとこと要約

この研究はGANを適用して、multi-output Gumbel-Softmax または softmax 層を使用して複数のカテゴリ変数からなるサンプルを生成し、いくつかのアーキテクチャを比較し、さまざまなデータセットに対して既存のベースラインより性能を向上させることを示します。

ABSTRACT

We propose a method to train generative adversarial networks on mutivariate feature vectors representing multiple categorical values. In contrast to the continuous domain, where GAN-based methods have delivered considerable results, GANs struggle to perform equally well on discrete data. We propose and compare several architectures based on multiple (Gumbel) softmax output layers taking into account the structure of the data. We evaluate the performance of our architecture on datasets with different sparsity, number of features, ranges of categorical values, and dependencies among the features. Our proposed architecture and method outperforms existing models.

研究の動機と目的

GANを用いた複数のカテゴリ変数を持つサンプル生成の課題を動機づけ、解決する。
多カテゴリ出力に合わせたアーキテクチャと訓練損失を提案する。
生成データの忠実度を評価する指標を拡張して、多カテゴリ合成データの評価を拡張する。
データセットの sparsity、次元性、依存関係が異なるデータに対して6モデルを経験的に比較する。

提案手法

N 個のカテゴリ変数に対して1-hotエンコーディングの連結として多カテゴリデータを表現する。
Gumbel-Softmaxまたはsoftmax活性化を用いてカテゴリごとに個別の出力を生成するように generator/decoder を修正する。
GAN系の変種（GAN、WGAN-GP、ARAE、MedGAN）を多カテゴリ設定に適用・適応し、それぞれ対応する損失形式を採用する。
訓練時に多カテゴリ構造を考慮した再構成/報酬目的を導入する（カテゴリごとのクロスエントロピー）。
生成データと実データの周辺分布と予測依存情報を比較する拡張指標を用いて評価する。

実験結果

リサーチクエスチョン

RQ1訓練時の微分性を維持したまま、複数のカテゴリ変数を持つサンプルをGANで生成するにはどうすれば良いか？
RQ2多カテゴリGANアーキテクチャは、 sparsity、次元性、カテゴリのデーカルティティが異なるデータセットで適用済みベースラインモデルを上回るのか？
RQ3複数のカテゴリ特徴間の依存関係と周辺適合性の両方を捉える効果的な評価指標は何か？

主な発見

モデル	データセット	MSE_p	MSE_f	MSE_a
ARAE	FIXED 2	0.00031 ± 0.00004	0.00001 ± 0.00001	0.00059 ± 0.00022
MedGAN	FIXED 2	0.00036 ± 0.00031	0.00005 ± 0.00003	0.00056 ± 0.00033
MC-ARAE	FIXED 2	0.00046 ± 0.00028	0.00001 ± 0.00000	0.00058 ± 0.00024
MC-MedGAN	FIXED 2	0.00013 ± 0.00006	0.00000 ± 0.00000	0.00032 ± 0.00017
MC-GumbelGAN	FIXED 2	0.00337 ± 0.00188	0.00014 ± 0.00012	0.00050 ± 0.00012
MC-WGAN-GP	FIXED 2	0.00030 ± 0.00007	0.00001 ± 0.00000	0.00068 ± 0.00012
ARAE	FIXED 10	0.00398 ± 0.00002	0.00274 ± 0.00021	0.02156 ± 0.00175
MedGAN	FIXED 10	0.00720 ± 0.00825	0.00463 ± 0.00404	0.01961 ± 0.00214
MC-ARAE	FIXED 10	0.00266 ± 0.00009	0.00036 ± 0.00018	0.01086 ± 0.00159
MC-MedGAN	FIXED 10	0.00022 ± 0.00003	0.00167 ± 0.00010	0.00062 ± 0.00044
MC-GumbelGAN	FIXED 10	0.00056 ± 0.00006	0.00110 ± 0.00013	0.00055 ± 0.00035
MC-WGAN-GP	FIXED 10	0.00026 ± 0.00001	0.00123 ± 0.00005	0.00048 ± 0.00010
ARAE	MIX SMALL	0.00261 ± 0.00020	0.01303 ± 0.00146	0.01560 ± 0.00039
MedGAN	MIX SMALL	0.00083 ± 0.00039	0.01889 ± 0.00258	0.02070 ± 0.00170
MC-ARAE	MIX SMALL	0.00195 ± 0.00040	0.00081 ± 0.00018	0.00759 ± 0.00100
MC-MedGAN	MIX SMALL	0.00029 ± 0.00003	0.00133 ± 0.00012	0.00080 ± 0.00018
MC-GumbelGAN	MIX SMALL	0.00078 ± 0.00027	0.00104 ± 0.00013	0.00047 ± 0.00008
MC-WGAN-GP	MIX SMALL	0.00048 ± 0.00010	0.00140 ± 0.00014	0.00037 ± 0.00016
ARAE	MIX BIG	0.04209 ± 0.00362	0.02075 ± 0.01144	0.00519 ± 0.00087
MedGAN	MIX BIG	0.01023 ± 0.00263	0.00211 ± 0.00033	0.00708 ± 0.00162
MC-ARAE	MIX BIG	0.00800 ± 0.00019	0.00249 ± 0.00035	0.00472 ± 0.00092
MC-MedGAN	MIX BIG	0.00142 ± 0.00015	0.00491 ± 0.00055	0.01309 ± 0.00106
MC-GumbelGAN	MIX BIG	0.00312 ± 0.00032	0.00194 ± 0.00017	0.00430 ± 0.00021
MC-WGAN-GP	MIX BIG	0.00144 ± 0.00006	0.00536 ± 0.00030	0.01664 ± 0.00177
ARAE	CENSUS	0.00165 ± 0.00082	0.00206 ± 0.00030	0.00668 ± 0.00175
MedGAN	CENSUS	0.00871 ± 0.01078	0.00709 ± 0.00889	0.01723 ± 0.02177
MC-ARAE	CENSUS	0.00333 ± 0.00020	0.00129 ± 0.00019	0.00360 ± 0.00095
MC-MedGAN	CENSUS	0.00012 ± 0.00004	0.00024 ± 0.00003	0.00013 ± 0.00003
MC-GumbelGAN	CENSUS	0.01866 ± 0.00040	0.00981 ± 0.00034	0.03930 ± 0.00469
MC-WGAN-GP	CENSUS	0.00019 ± 0.00004	0.00017 ± 0.00002	0.00008 ± 0.00002

多カテゴリGAN系は一般にデータセット間でベースラインのARAEおよびMedGANを上回る。
データセットと設定によって性能向上は異なり、すべての設定で単一モデルが優越するわけではない。
Gumbel-SoftmaxおよびWGAN-GPベースの発生器と、それらの多カテゴリデコーダは、いくつかの設定でMSEベース指標を改善する。
Census系データセットでは複数カテゴリモデルの強い改善を示し、高次元で多様なカテゴリデータに対する効果を示唆する。
実験全体を通じて、次元性と sparsity が高いほど依存関係の捕捉が難しくなり、モデル選択に影響を与える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。