Skip to main content
QUICK REVIEW

[论文解读] Elastic-InfoGAN: Unsupervised Disentangled Representation Learning in Class-Imbalanced Data

Utkarsh Ojha, Krishna Kumar Singh|arXiv (Cornell University)|Jan 1, 2020
Generative Adversarial Networks and Image Synthesis被引用 3
一句话总结

该论文提出Elastic-InfoGAN,一种新颖的无监督生成模型,通过使离散潜在因子对保留身份的变换保持不变,从而在类别不平衡数据中将物体身份与低层次视觉因素解耦。通过利用这种不变性作为学习信号,该方法即使在数据分布倾斜的情况下也能有效学习解耦表示,在合成数据集和真实世界不平衡数据集上均优于标准InfoGAN。

ABSTRACT

We propose a novel unsupervised generative model that learns to disentangle object identity from other low-level aspects in class-imbalanced data. We first investigate the issues surrounding the assumptions about uniformity made by InfoGAN, and demonstrate its ineffectiveness to properly disentangle object identity in imbalanced data. Our key idea is to make the discovery of the discrete latent factor of variation invariant to identity-preserving transformations in real images, and use that as a signal to learn the appropriate latent distribution representing object identity. Experiments on both artificial (MNIST, 3D cars, 3D chairs, ShapeNet) and real-world (YouTube-Faces) imbalanced datasets demonstrate the effectiveness of our method in disentangling object identity as a latent factor of variation.

研究动机与目标

  • 解决InfoGAN在类别不平衡数据分布下无法有效解耦物体身份的问题。
  • 探究InfoGAN在不平衡设置下均匀潜在分布假设为何失效。
  • 开发一种通过使离散潜在因子对保留身份的变换保持不变来学习解耦表示的方法。
  • 在合成和真实世界不平衡数据集上证明该方法的有效性。

提出的方法

  • 该方法引入了一种改进的InfoGAN目标函数,强制在真实图像中离散潜在因子对保留身份的变换保持不变。
  • 利用数据增强生成保留物体身份但改变低层次特征的变换。
  • 模型学习到一种潜在分布,使得离散因子在这些保留身份的变换下保持稳定,从而作为解耦的信号。
  • 通过最大化不变潜在码与输入之间的互信息,训练目标鼓励模型将身份与其他因素解耦。
  • 该方法被应用于具有已知类别不平衡的合成数据集(MNIST、3D cars、3D chairs、ShapeNet)和真实世界数据集(YouTube-Faces)。
  • 该方法在训练过程中不依赖类别标签,保持完全无监督的同时实现了解耦。

实验结果

研究问题

  • RQ1InfoGAN能否在类别不平衡数据中有效解耦物体身份?若不能,其失败原因是什么?
  • RQ2如何利用对保留身份变换的不变性作为解耦表示学习的信号?
  • RQ3在不平衡数据集上,通过强制离散潜在因子的不变性,是否能提升解耦性能,相比标准InfoGAN?
  • RQ4所提出的方法能否在具有不同程度类别不平衡的多样化合成与真实世界数据集上实现泛化?

主要发现

  • Elastic-InfoGAN成功在类别不平衡数据中将物体身份与低层次视觉因素解耦,而标准InfoGAN则失败。
  • 在具有人工类别不平衡的MNIST、3D cars、3D chairs和ShapeNet数据集中,该方法实现了更优的解耦性能。
  • 在YouTube-Faces数据集中,Elastic-InfoGAN在真实世界数据不平衡和复杂身份变化下仍表现出有效的解耦。
  • 源自保留身份变换的不变性信号,使得无需监督即可稳定学习离散潜在因子。
  • 实验结果证实,该方法在不平衡数据条件下比标准InfoGAN具有更高的解耦质量。
  • 该方法在保持无监督学习的同时,在基准不平衡数据集上实现了最先进的解耦性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。