Skip to main content
QUICK REVIEW

[論文レビュー] MisGAN: Learning from Incomplete Data with Generative Adversarial Networks

Steven Cheng-Xian Li, Bo Jiang|arXiv (Cornell University)|Feb 25, 2019
Generative Adversarial Networks and Image Synthesis被引用数 72
ひとこと要約

MisGANは、欠測データを扱うためのマスク生成器とともに完全なデータ分布を学習するGANフレームワークを導入し、MCARの下で高品質なデータ生成と欠測値の補完を実現します。マスクとデータの2組のGANを用い、欠測データ再構成のための任意の補完器を追加できます。

ABSTRACT

Generative adversarial networks (GANs) have been shown to provide an effective way to model complex distributions and have obtained impressive results on various challenging tasks. However, typical GANs require fully-observed data during training. In this paper, we present a GAN-based framework for learning from complex, high-dimensional incomplete data. The proposed framework learns a complete data generator along with a mask generator that models the missing data distribution. We further demonstrate how to impute missing data by equipping our framework with an adversarially trained imputer. We evaluate the proposed framework using a series of experiments with several types of missing data processes under the missing completely at random assumption.

研究の動機と目的

  • データが不完全に観測されるときに高次元データ分布を学習する動機づけ。
  • マスク生成器を介して完全データと欠測を共同モデリングするGANベースのフレームワークを提案。
  • MisGANフレームワーク内で対生成的補完器を組み込んでデータの補完を可能にする。
  • MCAR欠測パターンの下で高次元画像データに対する有効性を実証する。

提案手法

  • 欠測エントリを定数tauで埋めるマスキング演算子f_tauを定義。
  • マスク用の(G_m, D_m)とデータ用の(G_x, D_x)という2組のGANを導入し、ワッサースタインGAN目的で訓練。
  • 生成された完全データをf_tauでマスクし、D_xを訓練して実データとマスクされた生成データを識別。
  • 実データのマスク分布にG_mを一致させ、マスクされたデータを実 incomplete データと整合させることをL_xとL_mロスで jointly 最適化。
  • 任意で補完器G_iと対応する識別器D_iを追加して、対生成的訓練を通じてデータ補完を行い(L_iとL_xを含む結合目的関数)。
  • 理論的結果はマスキング手法を正当化する:MCAR下で完全データ分布の回復は埋められた特定の値に依存せず、訓練目的はマスクによって条件付けられた周辺分布と一致する。

実験結果

リサーチクエスチョン

  • RQ1MisGANはMCARの下で不完全な観測から基になる完全データ分布を回復できるか。
  • RQ2埋められた値の具体的な選択や欠測値の位置情報の知識が回復性に影響を与えるか。
  • RQ3欠測データの高品質な補完を実現するようにフレームワークを拡張できるか。
  • RQ4マスク識別器を組み込むことで発散解を避け、AmbientGANと比較して学習性が改善されるか。
  • RQ5さまざまなMCAR様の欠測データパターンを持つ標準的な画像データセットでMisGANはどの程度性能を発揮するか。

主な発見

  • MisGANは完全なデータ分布とマスク分布を同時に学習し、不完全データからの生成を可能にする。
  • 理論分析により、MCAR下で真のデータ分布の回復性は、指定されたマスキングモデルの下で選択された埋め値や欠測位置情報に依存しないことが示される。
  • MNIST、CIFAR-10、CelebAでの実験結果は、欠測データパターン全般でImputation品質と安定性において、特に欠測率が高い場合に、ConvACベースラインを一般的に上回る。
  • 補完器G_iをMisGAN内で対生成的に訓練することで、観測データに条件付けられた多様な補完を生成し、補完の現実性を向上させる。
  • アブレーション研究は、マスク識別器が退化解を避け、正しいマスク分布を学習する上で重要であることを示し、AmbientGANライクな設定よりもロバスト性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。