QUICK REVIEW

[论文解读] Pattern-Affinitive Propagation across Depth, Surface Normal and Semantic Segmentation

Zhenyu Zhang, Zhen Cui|arXiv (Cornell University)|Jun 8, 2019

Advanced Vision and Imaging参考文献 59被引用 23

一句话总结

本文提出了一种名为模式亲和传播（Pattern-Affinitive Propagation, PAP）的新框架，通过跨任务的循环模式亲和性，联合预测深度、表面法线和语义分割。该方法利用非局部相似性矩阵实现跨任务传播，并通过迭代的任务特定扩散提升性能，在 NYUD-v2、SUN-RGBD 和 KITTI 基准上取得了最先进或具有竞争力的结果。

ABSTRACT

In this paper, we propose a novel Pattern-Affinitive Propagation (PAP) framework to jointly predict depth, surface normal and semantic segmentation. The motivation behind it comes from the statistic observation that pattern-affinitive pairs recur much frequently across different tasks as well as within a task. Thus, we can conduct two types of propagations, cross-task propagation and task-specific propagation, to adaptively diffuse those similar patterns. The former integrates cross-task affinity patterns to adapt to each task therein through the calculation on non-local relationships. Next the latter performs an iterative diffusion in the feature space so that the cross-task affinity patterns can be widely-spread within the task. Accordingly, the learning of each task can be regularized and boosted by the complementary task-level affinities. Extensive experiments demonstrate the effectiveness and the superiority of our method on the joint three tasks. Meanwhile, we achieve the state-of-the-art or competitive results on the three related datasets, NYUD-v2, SUN-RGBD and KITTI.

研究动机与目标

为解决通过利用跨任务知识联合预测深度、表面法线和语义分割来提升场景理解的挑战。
建模不同任务之间的循环模式亲和关系，以增强特征表示和预测准确性。
开发一种通过结构化传播机制利用多任务互补信息的方法。
实现在数据丰富到数据稀缺领域之间的有效知识蒸馏，例如从 NYUD-v2 到 KITTI 的迁移。

提出的方法

PAP 框架引入两阶段传播：通过非局部相似性矩阵，实现跨任务传播以聚合和优化跨任务的亲和模式。
使用 REL、RMSE 和标签一致性度量，形式化表示深度、法线和分割图中像素之间的成对亲和性。
任务特定传播在特征空间中执行迭代扩散，将跨任务亲和模式在每个任务内部传播，以正则化学习过程。
该方法使用非局部操作捕捉长距离依赖关系，取代局部邻域假设。
亲和矩阵按任务独立学习，并通过跨任务优化进行精炼，以提升泛化能力和鲁棒性。
模型采用 ResNet-50 作为主干网络，端到端训练，共享特征并使用任务特定头。

实验结果

研究问题

RQ1能否有效建模深度、表面法线和语义分割任务之间的循环模式亲和性，以提升联合预测性能？
RQ2如何传播跨任务亲和性以提升各个独立任务的性能？
RQ3所提方法是否仅使用 RGB 输入即可在多个基准数据集上实现最先进结果？
RQ4PAP 框架在多大程度上能够实现从数据丰富到数据稀缺领域的知识蒸馏？

主要发现

在 KITTI 深度基准上，PAP 方法在 NYUD-v2 上取得了 14.58 SILog、3.96 sqErrRel、11.50 absErrRel 和 15.24 iRMSE 的结果，多数指标优于 DORN。
在 SUN-RGBD 上，该方法取得了 83.8% 像素准确率、58.4% 平均准确率和 50.5% IoU，在所有指标中均位列前茅。
在 NYUD-v2 上，该方法在语义分割任务中取得了 62.5% 的平均准确率和 50.4% 的 IoU，展现出仅使用 RGB 输入的强劲性能。
在 KITTI 上，该方法在准确率和推理速度方面均优于当前最先进方法，包括 DORN。
在 NYUD-v2、SUN-RGBD 和 KITTI 上的定性结果表明，预测结果质量高、细节丰富，接近真实值。
从 NYUD-v2 到 KITTI 的知识蒸馏实验表明，该方法在低资源设置下具有显著有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。