[论文解读] BlockGAN: Learning 3D Object-aware Scene Representations from Unlabelled Images
BlockGAN 直接从未标注的二维图像中学习具备三维物体感知的场景表示,通过生成并将三维物体特征组合成一个三维场景,从而实现对物体姿态和身份的可控操作,同时具备真实的光照与阴影效果。
We present BlockGAN, an image generative model that learns object-aware 3D scene representations directly from unlabelled 2D images. Current work on scene representation learning either ignores scene background or treats the whole scene as one object. Meanwhile, work that considers scene compositionality treats scene objects only as image patches or 2D layers with alpha maps. Inspired by the computer graphics pipeline, we design BlockGAN to learn to first generate 3D features of background and foreground objects, then combine them into 3D features for the wholes cene, and finally render them into realistic images. This allows BlockGAN to reason over occlusion and interaction between objects' appearance, such as shadow and lighting, and provides control over each object's 3D pose and identity, while maintaining image realism. BlockGAN is trained end-to-end, using only unlabelled single images, without the need for 3D geometry, pose labels, object masks, or multiple views of the same scene. Our experiments show that using explicit 3D features to represent objects allows BlockGAN to learn disentangled representations both in terms of objects (foreground and background) and their properties (pose and identity).
研究动机与目标
- 激发在未标注的二维图像中学习符合三维组合性和物体交互的场景表示。
- 将场景解耦为背景与多个可控姿态与身份的前景对象。
- 在测试时实现对对象数量、姿态和外观的操作,同时保持真实感。
提出的方法
- 从噪声向量和对象姿态参数为每个对象生成三维特征。
- 使用三维相似变换对每个对象的三维特征进行变换,并将它们合成为统一的三维场景特征。
- 通过一个可微、基于学习的透视投影模块将三维场景特征渲染为二维图像。
- 使用一个场景组合器,通过逐元素最大化将物体特征组合成场景特征。
- 端到端地对未标注图像进行对抗性损失训练,并加上风格判别器以应对杂乱背景。
实验结果
研究问题
- RQ1无监督 GAN 是否能够直接从二维图像学习到解耦且具备对象感知的三维表示?
- RQ2显式的三维对象表示是否能够在场景中实现对单个对象的姿态和身份的操作?
- RQ3模型是否能够处理杂乱背景并在测试时支持添加/删除对象?
- RQ4在图像保真度与对象解耦方面,BlockGAN 与基于二维的基线以及纯三维感知基线相比如何?
主要发现
| 方法 | Synth-Car1 64 × 64 | Synth-Chair1 64 × 64 | Real-Car 64 × 64 | CLEVR2 64 × 64 |
|---|---|---|---|---|
| WGAN-GP | 0.141 ± 0.002 | 0.111 ± 0.002 | 0.035 ± 0.001 | 0.076 ± 0.002 |
| LR-GAN | 0.038 ± 0.001 | 0.036 ± 0.002 | 0.014 ± 0.001 | 0.052 ± 0.001 |
| HoloGAN | 0.070 ± 0.001 | 0.058 ± 0.002 | 0.028 ± 0.002 | 0.032 ± 0.001 |
| BlockGAN (ours) | 0.039 ± 0.001 | 0.031 ± 0.001 | 0.016 ± 0.001 | 0.021 ± 0.001 |
- BlockGAN 在视觉保真度(KID 分数)方面与基线 GAN 相当甚至更好,同时提供显式的对象级控制。
- 模型实现背景与前景之间以及多个前景对象之间的解耦,支持对每个对象的姿态和身份进行操作。
- 在测试时,用户可以在场景中添加、删除或进行几何修改对象,并获得逼真的阴影与遮挡效果。
- BlockGAN 即使在训练时对象数量较少,也支持在测试时添加更多前景对象,展示了真正的组合理解。
- 与 LR-GAN 相比,BlockGAN 提供显式的对象级控制,并在同时改变背景和前景时避免了缠结的变化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。