[论文解读] Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer
DIB-R 引入一种分析型、基于插值的可微分光栅化器,能够在前景顶点属性插值与基于距离的背景聚合之间提供梯度,使 2D 监督下学习三维几何、纹理和光照成为可能。
Many machine learning models operate on images, but ignore the fact that images are 2D projections formed by 3D geometry interacting with light, in a process called rendering. Enabling ML models to understand image formation might be key for generalization. However, due to an essential rasterization step involving discrete assignment operations, rendering pipelines are non-differentiable and thus largely inaccessible to gradient-based ML techniques. In this paper, we present {\emph DIB-R}, a differentiable rendering framework which allows gradients to be analytically computed for all pixels in an image. Key to our approach is to view foreground rasterization as a weighted interpolation of local properties and background rasterization as a distance-based aggregation of global geometry. Our approach allows for accurate optimization over vertex positions, colors, normals, light directions and texture coordinates through a variety of lighting models. We showcase our approach in two ML applications: single-image 3D object prediction, and 3D textured object generation, both trained using exclusively using 2D supervision. Our project website is: https://nv-tlabs.github.io/DIB-R/
研究动机与目标
- 通过使渲染可微分来激励从 2D 图像学习 3D 几何。
- 开发一个基于插值的光栅化器,为所有像素提供解析梯度。
- 使顶点位置、颜色、法线、纹理坐标和光照的优化成为可能。
- 仅使用 2D 监督实现单图像 3D 对象预测和 3D 纹理对象生成,并结合多视一致性、对抗和感知损失以提高真实感。
提出的方法
- 将前景光栅化定义为最近包含面的顶点属性的加权重心插值。
- 引入背景光栅化,作为对全局几何的基于距离的聚合,带有软 Alpha 分配 (A_i')。
- 通过对插值像素值的链式法则,推导出所有顶点属性(位置、颜色、纹理、法线、光照)的解析梯度。
- 通过在片段阶段将网格颜色和光照因子分离,支持多种光照模型(Phong、Lambertian、Spherical Harmonics)。
- 训练网络从 2D 输入预测几何、纹理图和光照,使用 2D 监督和多视一致性,以及对抗和感知损失以提高逼真度。
- 扩展到一个 3D GAN 设置,使用仅有 2D 监督来生成带纹理的 3D 形状。
实验结果
研究问题
- RQ1一个基于插值的可微分光栅化器是否能够为光栅化场景中的所有相关顶点属性提供完整的解析梯度?
- RQ2使用可微分渲染器,单个 2D 图像能在多大程度上推断出 3D 几何、纹理和光照?
- RQ32D 监督是否足以训练预测 3D 形状和纹理的模型,且对抗训练是否能进一步提升真实感?
- RQ4该方法是否可以扩展到利用 2D 监督进行带纹理的 3D 对象的生成建模?
主要发现
| 类别 | N3MR IOU | N3MR F-score | SoftRas-Mesh IOU | SoftRas-Mesh F-score | Ours IOU | Ours F-score |
|---|---|---|---|---|---|---|
| Airplane | 58.5 | 80.6 | 58.4 | 71.9 | 57.0 | 75.7 |
| Bench | 45.7 | 55.3 | 44.9 | 49.9 | 49.8 | 55.6 |
| Dresser | 74.1 | 46.3 | 73.6 | 41.5 | 76.3 | 52.2 |
| Car | 71.3 | 53.3 | 77.1 | 51.1 | 78.8 | 53.6 |
| Chair | 41.4 | 39.1 | 49.7 | 40.8 | 52.7 | 44.7 |
| Display | 55.5 | 43.8 | 54.7 | 41.7 | 58.8 | 46.4 |
| Lamp | 36.7 | 46.4 | 39.1 | 39.1 | 40.3 | 45.9 |
| Speaker | 67.4 | 35.0 | 68.4 | 29.8 | 72.6 | 38.8 |
| Rifle | 55.7 | 83.6 | 62.0 | 82.8 | 56.1 | 82.0 |
| Sofa | 60.2 | 39.2 | 63.6 | 39.3 | 67.7 | 43.1 |
| Table | 39.1 | 46.9 | 45.3 | 37.1 | 50.8 | 51.5 |
| Phone | 76.2 | 74.2 | 75.5 | 68.6 | 74.3 | 73.3 |
| Vessel | 59.4 | 66.9 | 58.9 | 55.4 | 60.9 | 63.2 |
- DIB-R 在基于光栅化的渲染器中,在 ShapeNet 的 13 个类别上实现了单图像 3D 对象预测的最优结果,优于 N3MR 和 SoftRas-Mesh。
- 带几何和颜色的预测(以及后续的纹理和光照)在大多数类别的 3D IOU 和 F-score 上显示定量提升。
- 纹理和光照预测在 3D 形状、纹理和光照准确性方面优于基线,在纹理的 L1 差异和光照方向误差上有显著提升。
- 引入对抗损失提升纹理真实感,并有助于在渲染输出中将纹理从光照中解耦。
- 该方法在 2D 监督下支持 3D 对象生成(3D GAN),生成多样且高质量的带纹理形状。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。