[论文解读] Neural Photometric Stereo Reconstruction for General Reflectance Surfaces.
本文提出了一种基于重建的无监督深度学习框架,用于光度立体重建,能够在无需真实标签的情况下预测表面法线和BRDF。通过利用可微分渲染器最小化观测图像与合成图像之间的重建损失,该方法在真实世界基准上实现了最先进性能,克服了训练数据稀缺和输入图像顺序敏感性等挑战。
We present a novel convolutional neural network architecture for photometric stereo (Woodham, 1980), a problem of recovering 3D object surface normals from multiple images observed under varying illuminations. Despite its long history in computer vision, the problem still shows fundamental challenges for surfaces with unknown general reflectance properties (BRDFs). Leveraging deep neural networks to learn complicated reflectance models is promising, but studies in this direction are very limited due to difficulties in acquiring accurate ground truth for training and also in designing networks invariant to permutation of input images. In order to address these challenges, we propose a reconstruction based unsupervised learning framework where surface normals and BRDFs are predicted by the network and fed into the rendering equation to synthesize observed images. The network is trained during testing by minimizing reconstruction loss between observed and synthesized images. Thus, our learning process does not require ground truth normals or even pre-training on external images. Our method is shown to achieve the state-of-the-art performance on a challenging real-world scene benchmark.
研究动机与目标
- 解决在未知一般BRDF表面下,从不同光照条件下的多幅图像中恢复3D表面法线的挑战。
- 克服光度立体中由于缺乏准确真实标签数据而导致深度网络训练困难的问题。
- 设计一种对输入图像顺序变化不敏感的神经网络架构。
- 实现在真实世界观测图像上端到端训练,无需预训练或监督。
- 通过无监督重建损失,在真实世界光度立体基准上实现最先进性能。
提出的方法
- 该方法采用卷积神经网络,从不同光照条件下的多幅输入图像中联合预测表面法线和BRDF参数。
- 将预测得到的法线和BRDF输入可微分渲染方程,以合成对应输入光照条件下的图像。
- 通过在推理过程中最小化合成图像与实际观测图像之间的重建损失来训练网络。
- 训练过程为无监督,无需真实法线或BRDF标签,仅依赖于观测到的输入图像。
- 网络架构设计为排列等变(permutation-equivariant),确保无论输入图像顺序如何,预测结果保持一致。
- 该框架支持直接在测试数据上进行端到端优化,使网络能够无需外部预训练即可适应真实世界场景。
实验结果
研究问题
- RQ1深度神经网络是否能够在无任何真实标签监督的情况下,从不同光照条件下的多幅图像中恢复出准确的表面法线?
- RQ2如何使光度立体方法对未知且一般的BRDF具有鲁棒性,同时无需标注数据?
- RQ3基于可微分渲染的无监督重建损失是否能在真实世界场景中超越有监督或弱监督基线方法?
- RQ4当网络仅通过重建损失进行训练,且未在合成或标注数据上进行预训练时,其在真实世界数据上的泛化能力能达到何种程度?
- RQ5如何在光度立体网络中有效实现排列不变性,以确保在不同输入图像顺序下均具有鲁棒性能?
主要发现
- 所提出的方法在一项具有挑战性的真实世界光度立体基准上实现了最先进性能,且无需真实法线或BRDF标签。
- 基于重建损失的无监督训练框架能够直接在测试数据上实现有效优化,无需外部监督。
- 由于网络架构设计,该网络对输入图像顺序变化表现出鲁棒性,确保无论输入顺序如何,预测结果一致。
- 该方法通过重建目标隐式学习了复杂的反射模型(BRDF),即使没有显式监督也能实现。
- 该框架在真实世界场景中泛化良好,在具有未知反射特性的真实基准数据集上优于现有方法。
- 训练过程中未使用预训练或真实标签数据,凸显了基于重建的无监督学习范式在光度立体任务中的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。