[论文解读] Pattern-Affinitive Propagation across Depth, Surface Normal and Semantic Segmentation
本文提出了一种名为模式亲和传播(Pattern-Affinitive Propagation, PAP)的新框架,通过跨任务的循环模式亲和性,联合预测深度、表面法线和语义分割。该方法利用非局部相似性矩阵实现跨任务传播,并通过迭代的任务特定扩散提升性能,在 NYUD-v2、SUN-RGBD 和 KITTI 基准上取得了最先进或具有竞争力的结果。
In this paper, we propose a novel Pattern-Affinitive Propagation (PAP) framework to jointly predict depth, surface normal and semantic segmentation. The motivation behind it comes from the statistic observation that pattern-affinitive pairs recur much frequently across different tasks as well as within a task. Thus, we can conduct two types of propagations, cross-task propagation and task-specific propagation, to adaptively diffuse those similar patterns. The former integrates cross-task affinity patterns to adapt to each task therein through the calculation on non-local relationships. Next the latter performs an iterative diffusion in the feature space so that the cross-task affinity patterns can be widely-spread within the task. Accordingly, the learning of each task can be regularized and boosted by the complementary task-level affinities. Extensive experiments demonstrate the effectiveness and the superiority of our method on the joint three tasks. Meanwhile, we achieve the state-of-the-art or competitive results on the three related datasets, NYUD-v2, SUN-RGBD and KITTI.
研究动机与目标
- 为解决通过利用跨任务知识联合预测深度、表面法线和语义分割来提升场景理解的挑战。
- 建模不同任务之间的循环模式亲和关系,以增强特征表示和预测准确性。
- 开发一种通过结构化传播机制利用多任务互补信息的方法。
- 实现在数据丰富到数据稀缺领域之间的有效知识蒸馏,例如从 NYUD-v2 到 KITTI 的迁移。
提出的方法
- PAP 框架引入两阶段传播:通过非局部相似性矩阵,实现跨任务传播以聚合和优化跨任务的亲和模式。
- 使用 REL、RMSE 和标签一致性度量,形式化表示深度、法线和分割图中像素之间的成对亲和性。
- 任务特定传播在特征空间中执行迭代扩散,将跨任务亲和模式在每个任务内部传播,以正则化学习过程。
- 该方法使用非局部操作捕捉长距离依赖关系,取代局部邻域假设。
- 亲和矩阵按任务独立学习,并通过跨任务优化进行精炼,以提升泛化能力和鲁棒性。
- 模型采用 ResNet-50 作为主干网络,端到端训练,共享特征并使用任务特定头。
实验结果
研究问题
- RQ1能否有效建模深度、表面法线和语义分割任务之间的循环模式亲和性,以提升联合预测性能?
- RQ2如何传播跨任务亲和性以提升各个独立任务的性能?
- RQ3所提方法是否仅使用 RGB 输入即可在多个基准数据集上实现最先进结果?
- RQ4PAP 框架在多大程度上能够实现从数据丰富到数据稀缺领域的知识蒸馏?
主要发现
- 在 KITTI 深度基准上,PAP 方法在 NYUD-v2 上取得了 14.58 SILog、3.96 sqErrRel、11.50 absErrRel 和 15.24 iRMSE 的结果,多数指标优于 DORN。
- 在 SUN-RGBD 上,该方法取得了 83.8% 像素准确率、58.4% 平均准确率和 50.5% IoU,在所有指标中均位列前茅。
- 在 NYUD-v2 上,该方法在语义分割任务中取得了 62.5% 的平均准确率和 50.4% 的 IoU,展现出仅使用 RGB 输入的强劲性能。
- 在 KITTI 上,该方法在准确率和推理速度方面均优于当前最先进方法,包括 DORN。
- 在 NYUD-v2、SUN-RGBD 和 KITTI 上的定性结果表明,预测结果质量高、细节丰富,接近真实值。
- 从 NYUD-v2 到 KITTI 的知识蒸馏实验表明,该方法在低资源设置下具有显著有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。