QUICK REVIEW

[论文解读] MisGAN: Learning from Incomplete Data with Generative Adversarial Networks

Steven Cheng-Xian Li, Bo Jiang|arXiv (Cornell University)|Feb 25, 2019

Generative Adversarial Networks and Image Synthesis被引用 72

一句话总结

MisGAN 引入了一个 GAN 框架，在处理缺失数据时学习完整数据分布以及掩码生成器，能够在 MCAR 下实现高质量数据生成和插补。它使用针对掩码和数据的双重 GAN，并可选用于缺失数据重建的插补器。

ABSTRACT

Generative adversarial networks (GANs) have been shown to provide an effective way to model complex distributions and have obtained impressive results on various challenging tasks. However, typical GANs require fully-observed data during training. In this paper, we present a GAN-based framework for learning from complex, high-dimensional incomplete data. The proposed framework learns a complete data generator along with a mask generator that models the missing data distribution. We further demonstrate how to impute missing data by equipping our framework with an adversarially trained imputer. We evaluate the proposed framework using a series of experiments with several types of missing data processes under the missing completely at random assumption.

研究动机与目标

在数据不完全观测时，激励学习高维数据分布。
提出一种基于 GAN 的框架，通过掩码生成器共同建模完整数据与缺失性。
通过在 MisGAN 框架中整合对抗式插补器来实现数据插补。
在 MCAR 缺失模式下对高维图像数据展示有效性。

提出的方法

定义一个掩码运算符 f_tau，用常数 tau 填充缺失的项。
引入两个 GAN 对：(G_m, D_m) 用于掩码，(G_x, D_x) 用于数据，在 Wasserstein GAN 目标下进行训练。
用 f_tau 对生成的完整数据进行掩码，并训练 D_x 区分真实数据与被掩码的生成数据。
训练 G_m 以匹配真实的掩码分布，并联合优化以使被掩码的数据与真实不完整数据对齐（L_x 和 L_m 损失）。
可选地增加一个插补器 G_i 及相应的判别器 D_i，通过对抗训练执行数据插补（联合目标包括 L_i 和 L_x）。
理论结果证明掩码方法的合理性：在 MCAR 下，完整数据分布的恢复与具体填充值无关，且训练目标与在掩码条件下的边缘分布对齐。

实验结果

研究问题

RQ1MisGAN 是否能够在 MCAR 下从不完整观测中恢复潜在的完整数据分布？
RQ2填充值的具体选择或缺失值位置的知识是否会影响可恢复性？
RQ3该框架是否可以扩展以实现对缺失数据的高质量插补？
RQ4引入掩码判别器是否有助于避免退化解并提高相较于 AmbientGAN 的可学习性？
RQ5在具有各种类似 MCAR 的缺失模式的标准图像数据集上，MisGAN 的表现如何？

主要发现

MisGAN 同时学习完整数据分布和掩码分布，使得可以从不完整数据中生成。
理论分析表明，在指定掩码模型下，MCAR 条件下真实数据分布的可恢复性与所选填充值和缺失位置信息无关。
在 MNIST、CIFAR-10 和 CelebA 上的实证结果显示，MisGAN 在插补质量和对不同缺失数据模式的稳定性方面通常优于 ConvAC 基线，尤其在较高缺失率时。
可以在 MisGAN 内对抗性地训练一个插补器 G_i，以在观测数据条件下产生多样化的插补结果，从而提升插补的真实感。
消融研究表明，掩码判别器对于避免退化解、学习正确的掩码分布、提升相较于 AmbientGAN 式设置的鲁棒性是重要的。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。