[论文解读] RenderNet: A deep convolutional network for differentiable rendering from 3D shapes
RenderNet 提供一个可微渲染 CNN,具有新颖的投影单元,可从 3D 体素形状渲染 2D 图像,并支持从单张图像估计形状、姿态、光照和纹理等逆渲染任务。
Traditional computer graphics rendering pipeline is designed for procedurally generating 2D quality images from 3D shapes with high performance. The non-differentiability due to discrete operations such as visibility computation makes it hard to explicitly correlate rendering parameters and the resulting image, posing a significant challenge for inverse rendering tasks. Recent work on differentiable rendering achieves differentiability either by designing surrogate gradients for non-differentiable operations or via an approximate but differentiable renderer. These methods, however, are still limited when it comes to handling occlusion, and restricted to particular rendering effects. We present RenderNet, a differentiable rendering convolutional network with a novel projection unit that can render 2D images from 3D shapes. Spatial occlusion and shading calculation are automatically encoded in the network. Our experiments show that RenderNet can successfully learn to implement different shaders, and can be used in inverse rendering tasks to estimate shape, pose, lighting and texture from a single image.
研究动机与目标
- 推动可微分渲染以实现从单张图像进行逆图形任务的能力。
- 开发一个端到端可训练的 CNN,能够从 3D 体素输入渲染出 2D 图像。
- 引入一个以可微方式学习可见性和投影的投影单元。
- 展示多种着色风格的生成能力以及对嘈杂或低分辨率输入的鲁棒性。
- 展示在逆渲染任务中的适用性,如姿态、光照和纹理估计。
提出的方法
- 使用体素网格作为输入,并应用 world-to-camera 的刚体变换及三线性采样。
- 引入一个投影单元,它重塑 4D 体素特征张量并通过 1x1 卷积实现的 MLP 学习不同深度的可见性和投影。
- 采用 3D 卷积处理 3D 数据,随后再进行 2D 卷积以生成最终图像。
- 端到端训练,使用像素空间回归损失(颜色为 MSE,灰度为 BCE)。
- 扩展 RenderNet 输出法线贴图并与纹理映射及着色方程(如 Phong 模型)整合。
- 演示对未见类别的泛化以及对损坏/低分辨率输入的鲁棒性。
实验结果
研究问题
- RQ1RenderNet 是否能够在同一架构内学习不同的着色风格?
- RQ2模型是否能够泛化到未见类别的对象以及嘈杂或下采样的输入体积?
- RQ3RenderNet 是否可用于逆渲染任务,从单张图像恢复形状、姿态、光照和纹理?
- RQ4与编码器-解码器基线相比,在渲染质量和泛化方面 RenderNet 的表现如何?
- RQ5该框架是否可以扩展以处理纹理映射和更复杂的光照场景?
主要发现
- RenderNet 在同一架构中学习多种着色器(Phong、轮廓、卡通、环境遮蔽),在各风格下实现了有竞争力的 PSNR。
- 报告的 PSNR 值包括 RenderNet Phong 25.39、EC Phong 24.21、EC-Deep Phong 20.88、RenderNet Contour 19.70、RenderNet Toon 17.77、RenderNet AO 22.37、RenderNet Face 27.43。
- 该方法可泛化到未见类别(椅子在训练中,但可渲染 Stanford Bunny 和 Monkey)。
- RenderNet 能处理被扰动的输入(50% 随机噪声)和下采样,同时仍能输出合理的高质量渲染结果。
- 一个纹理映射扩展使得渲染像素表面的反照度和法线贴图成为可能,从而实现带纹理的着色渲染。
- 与编码器-解码器基线(EC、EC-Deep)相比,RenderNet 更好地保留对象细节并能泛化到新类别。
- 在单图像重建中,RenderNet 支持形状、姿态、光照和纹理的恢复,并在锐度与对再照明/再纹理的可控性方面有改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。