[论文解读] Learning a Multi-View Stereo Machine
本论文提出 Learnt Stereo Machines (LSMs):一个端到端可微分的网络,通过将二维特征从投影空间反投影到三维空间、与循环网格融合,执行多视图立体重建,并生成体素占据信息或每视图深度图。它展示了从少量视图进行几何感知的重建,以及对未见类别的强泛化能力。
We present a learnt system for multi-view stereopsis. In contrast to recent learning based methods for 3D reconstruction, we leverage the underlying 3D geometry of the problem through feature projection and unprojection along viewing rays. By formulating these operations in a differentiable manner, we are able to learn the system end-to-end for the task of metric 3D reconstruction. End-to-end learning allows us to jointly reason about shape priors while conforming geometric constraints, enabling reconstruction from much fewer images (even a single image) than required by classical approaches as well as completion of unseen surfaces. We thoroughly evaluate our approach on the ShapeNet dataset and demonstrate the benefits over classical approaches as well as recent learning based methods.
研究动机与目标
- 在端到端可学习框架中利用三维几何用于多视图立体匹配(MVS)。
- 通过整合几何先验和学习得到的线索,从少量视图,甚至单张图像中重建三维几何。
- 实现两种输出形式:体素占据网格(Voxel LSM)和每视图深度图(Depth LSM)。
- 评估对未见对象类别的泛化能力,并与经典与基于学习的基线方法进行比较。
提出的方法
- 通过共享的二维特征编码器处理输入图像,以获得密集特征图。
- 使用可微分双线性采样,将二维特征沿着观测射线反投影到三维特征网格。
- 将三维特征网格与三维卷积门控循环单元(3D conv-GRU)融合,生成一个局部匹配成本的单一网格。
- 对融合后的三维网格进行推理,使用三维UNet生成用于占据或深度估计的精炼三维网格。
- 通过可微分投影操作将三维网格投影回二维视图,以获得每视图输出。
- 对 V-LSM 与 D-LSM 分别使用体素占据(二元交叉熵)或深度(L1)损失进行训练。
实验结果
研究问题
- RQ1端到端学习能否利用几何约束比经典方法更有效地从少量视图重建三维几何?
- RQ2将相机位置信息以及可微分的三维投影/反投影纳入是否提高重建,与不带姿态信息或仅基于图像的基线相比?
- RQ3LSMs 对未见对象类别的泛化能力如何,是否表明依赖几何而非语义先验?
- RQ4Voxel-LSM 与 Depth-LSM 在准确性和在不同视图中的适用性方面有何比较?
- RQ5LSM 的性能如何随输入视图数量变化而规模化,与平面扫描和可视视觉外壳基线相比如何?
主要发现
- 体素 IoU 随视图数量增加而提升,分别在 1 至 4 视图时达到 61.5、72.1、76.2 和 78.2,相较基线。
- 视觉外壳和 R2N2 基线在增加视图时提升较小,突出 LSM 能利用几何多视图线索的能力。
- Depth-LSM 产生每视图深度图,能够获得一致的未投影点云,在无纹理区域甚至优于平面扫描。
- 泛化测试显示随着视图增多,类别无关的改进,表明依赖于几何线索而非语义先验。
- 来自 D-LSM 的深度预测展示了度量意义的几何和在难以重建的案例(如椅子)中更薄的结构,与 3D 体积输出高度一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。