[论文解读] Improved Adversarial Systems for 3D Object Generation and Reconstruction
Introduce 3D-IWGAN and 3D-VAE-IWGAN to generate and reconstruct 3D object shapes across multiple categories using Wasserstein distance with gradient penalty, achieving state-of-the-art IKEA dataset reconstruction results.
This paper describes a new approach for training generative adversarial networks (GAN) to understand the detailed 3D shape of objects. While GANs have been used in this domain previously, they are notoriously hard to train, especially for the complex joint data distribution over 3D objects of many categories and orientations. Our method extends previous work by employing the Wasserstein distance normalized with gradient penalization as a training objective. This enables improved generation from the joint object shape distribution. Our system can also reconstruct 3D shape from 2D images and perform shape completion from occluded 2.5D range scans. We achieve notable quantitative improvements in comparison to existing baselines
研究动机与目标
- 在没有类别标签的情况下,推动对复杂的、多类别的3D形状分布进行鲁棒学习。
- 改善对跨多个视角的3D对象分布的GAN训练稳定性。
- 实现从单个二维图像以及来自遮挡的2.5D深度扫描的3D重建。
- 在3D生成和VAE-GAN混合模型中集成带梯度惩罚的Wasserstein GAN。
提出的方法
- 使用3D-IWGAN学习跨多种对象类别和方向的联合3D形状分布。
- 应用带梯度惩罚的Wasserstein距离(IWGAN)以在不使用权重裁剪的情况下稳定GAN训练(λ=10)。
- 修改训练计划:判别器每个批次更新;生成器每5个批次更新。
- 将3D-IWGAN与VAE结合(3D-VAE-IWGAN),以实现对图像条件的3D重建,并使编码器、生成器和判别器的更新同步。
- 编码器/解码器架构:5层CNN编码器;VAE端的潜在表示为400维;生成器/判别器输出为32^3体素。
- 扩展到使用同一3D-VAE-IWGAN框架从单一视角深度扫描进行3D对象重建。
实验结果
研究问题
- RQ1在没有类别标签监督的情况下,单一联合3D形状网络能否学习多种对象类别和方向?
- RQ2带梯度惩罚的Wasserstein距离是否能提高复杂3D形状分布的稳定性和收敛性?
- RQ3在以2D输入为条件时,VAE-GAN混合(3D-VAE-IWGAN)能否实现最先进的图像到3D重建?
- RQ4该模型是否能从部分遮挡或仅深度观测中完成3D形状?
主要发现
- 3D-IWGAN 在 ModelNet10 的 10 个类别和 12 个方向上稳定训练,能够实现平滑的潜在空间插值。
- 3D-VAE-IWGAN 在 IKEA 数据集上实现最先进的重建,平均精度均值为61.7%(单独训练)和55.0%(联合训练)。
- 联合模型在无监督设置下与单独训练的模型相比具有竞争力,展示了共享表示学习的好处。
- 该系统可以从单张RGB图像以及深度图重建3D形状,包括Kinect派生数据,表明在现实感知场景中的适用性。
- 判别器损失跟踪收敛,表明在IWGAN目标和所提出的架构更改下训练稳定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。