QUICK REVIEW

[论文解读] Designing Deep Networks for Surface Normal Estimation

Xiaolong Wang, David F. Fouhey|arXiv (Cornell University)|Nov 18, 2014

Advanced Vision and Imaging参考文献 33被引用 30

一句话总结

本文提出一种新颖的CNN架构，用于单幅图像的表面法线估计，通过整合数十年来3D场景理解的洞见——如曼哈顿世界约束、房间布局和边缘标注——融入一个包含自顶向下、自底向上和融合组件的三流网络。该方法实现了最先进性能，在无需微调的情况下，相较于标准前馈网络将平均误差降低7–8%，并在NYU和B3DO数据集上优于先前工作。

ABSTRACT

In the past few years, convolutional neural nets (CNN) have shown incredible promise for learning visual representations. In this paper, we use CNNs for the task of predicting surface normals from a single image. But what is the right architecture we should use? We propose to build upon the decades of hard work in 3D scene understanding, to design new CNN architecture for the task of surface normal estimation. We show by incorporating several constraints (man-made, manhattan world) and meaningful intermediate representations (room layout, edge labels) in the architecture leads to state of the art performance on surface normal estimation. We also show that our network is quite robust and show state of the art results on other datasets as well without any fine-tuning.

研究动机与目标

通过将既有的3D场景理解原理融入深度学习架构，提升从单幅图像进行表面法线估计的性能。
通过融合自顶向下的上下文推理与自底向上的局部线索，解决纯端到端深度网络的局限性。
证明整合几何约束（例如正交性、消失点）和中间表示（例如布局、边缘类型）可提升性能与鲁棒性。
展示模型在无需微调的情况下实现跨数据集泛化，验证模型的鲁棒性与可迁移性。

提出的方法

设计三流架构：自顶向下的网络用于粗粒度布局与消失点估计，自底向上的网络用于局部块级别的法线与边缘预测，融合网络用于整合两者。
通过强制实现正交表面法线并利用消失点作为监督信号，在融合网络中引入曼哈顿世界假设。
在自顶向下的网络中使用房间布局作为结构化先验，将场景建模为内部向外的盒子，并进行离散类别预测。
将边缘标签（凸起、凹陷、遮挡）作为辅助输入引入融合网络，以提升边界预测精度。
采用软解码方案，根据输出概率对码字进行加权，以更好地优化平均误差与RMSE。
使用监督回归损失在表面法线上端到端训练融合网络，辅以布局、边缘和消失点的多任务监督。

实验结果

研究问题

RQ1将经典3D场景理解先验（如曼哈顿世界约束与房间布局）整合到深度学习-based表面法线估计中，是否能提升性能？
RQ2将自顶向下的上下文推理与自底向上的局部特征学习相融合，是否能优于独立的网络结构？
RQ3边缘标签（凸起、凹陷、遮挡）在多大程度上能提升表面法线预测的准确性？
RQ4在未进行微调的情况下，一个在某一数据集上训练的模型是否能有效泛化到具有不同观测条件与场景类型的另一数据集？

主要发现

在NYU数据集上，完整融合网络的平均误差为24.2°，中位数误差为17.3°，相较于标准前馈网络降低7–8%。
单独添加布局、边缘和消失点均能提升性能，完整融合模型将RMSE降低至32.2°，11.25°误差降低至36.8%。
该模型在B3DO数据集上泛化良好，平均误差为34.5°，优于先前方法如3DP(MW) [6]（38.0°）和Hedau等[11]（43.5°）。
与标准解码相比，软解码方案将平均误差降低0.8°，RMSE降低3.7°，且无需重新训练。
定性结果表明，该模型能捕捉到桌腿等细粒度细节，以及曲面沙发等复杂表面，同时通过融合自顶向下与自底向上预测，减少了对无纹理区域的误分类。
即使Eigen等[5]的粗粒度网络也被本提出的融合网络超越，证明了架构整合的价值，而不仅仅是简单回归。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。