[论文解读] Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer 提出了一种完全可微的渲染框架,将渲染视为跨所有网格三角形的软性、概率性聚合,从而实现从像素到三维网格属性的端到端梯度传递,用于无监督的单视图重建和基于图像的形状拟合。
Rendering bridges the gap between 2D vision and 3D scenes by simulating the physical process of image formation. By inverting such renderer, one can think of a learning approach to infer 3D information from 2D images. However, standard graphics renderers involve a fundamental discretization step called rasterization, which prevents the rendering process to be differentiable, hence able to be learned. Unlike the state-of-the-art differentiable renderers, which only approximate the rendering gradient in the back propagation, we propose a truly differentiable rendering framework that is able to (1) directly render colorized mesh using differentiable functions and (2) back-propagate efficient supervision signals to mesh vertices and their attributes from various forms of image representations, including silhouette, shading and color images. The key to our framework is a novel formulation that views rendering as an aggregation function that fuses the probabilistic contributions of all mesh triangles with respect to the rendered pixels. Such formulation enables our framework to flow gradients to the occluded and far-range vertices, which cannot be achieved by the previous state-of-the-arts. We show that by using the proposed renderer, one can achieve significant improvement in 3D unsupervised single-view reconstruction both qualitatively and quantitatively. Experiments also demonstrate that our approach is able to handle the challenging tasks in image-based shape fitting, which remain nontrivial to existing differentiable renderers.
研究动机与目标
- 通过一个可微渲染器实现密集的像素到3D监督,激发从2D图像进行3D推理。
- 通过将光栅化重新表述为软性概率聚合来解决光栅化的不可微性。
- 使梯度能够流向遮挡和远距离的网格顶点,以实现鲁棒的3D重建和拟合。
- 支持对彩色网格、轮廓和着色进行渲染,以监督网格几何和外观。
提出的方法
- 引入每个三角形 j 的概率图 D_j,用以建模每个像素受该三角形影响的概率。
- 定义一个可微的聚合函数 A,使用 D_j 和三角形深度(z_j)将每个三角形的颜色图融合以产生最终图像。
- 使用基于 sigmoid 的软光栅化,具有可控的清晰度参数 sigma 和较小的 gamma,以在平滑性和保真度之间取得平衡。
- 提供聚合函数的变体(A_O 为轮廓,A_S 为颜色),并且可选使用基于神经网络的聚合器 A_N 进行对比。
- 通过轮廓和/或颜色图的渲染损失进行训练,并可选使用几何(Laplacian)正则化来稳定重建。
- 展示在遮挡和非刚性形变下的单视图网格重建与基于图像的形状拟合的应用性。
实验结果
研究问题
- RQ1一个真正可微的渲染层是否能够在没有3D监督的情况下,从单个图像实现3D网格重建的端到端训练?
- RQ2在软性、概率性光栅化框架中,遮挡和远距离顶点如何接收梯度信号?
- RQ3与先前的可微渲染器相比,软光栅化是否提供更平滑的优化曲面和更强的图像基形状拟合鲁棒性?
- RQ4不同距离度量和聚合函数对3D重建质量的影响是什么?
- RQ5该方法使用来自输入图像的颜色调色板方法为重建网格着色的效果如何?
主要发现
- SoftRas 在 ShapeNet 类别上的平均 IoU 超越无监督基线,接近甚至超过某些单视图重建的有监督方法。
- 概率聚合使梯度能够流向遮挡和远距离三角形,从而改善姿态拟合和非刚性形状优化。
- 通过学习的颜色调色板进行的颜色重建,在从低分辨率输入图像重建的网格上产生清晰纹理。
- 消融研究显示欧几里得距离以及 A_O/A_S 聚合器表现良好,基于神经网络的 A_N 在更高计算成本下提供边际增益。
- 使用轮廓和颜色损失进行渲染的性能优于仅轮廓监督,且拉普拉斯几何正则化带来额外收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。