[论文解读] PAD-Net: Multi-Tasks Guided Prediction-and-Distillation Network for Simultaneous Depth Estimation and Scene Parsing
PAD-Net 引入中间多任务预测和多模态蒸馏,以联合估计深度并从RGB图像执行场景解析,在 NYUD-v2 上取得最新结果,在 Cityscapes 上具竞争力。
Depth estimation and scene parsing are two particularly important tasks in visual scene understanding. In this paper we tackle the problem of simultaneous depth estimation and scene parsing in a joint CNN. The task can be typically treated as a deep multi-task learning problem [42]. Different from previous methods directly optimizing multiple tasks given the input training data, this paper proposes a novel multi-task guided prediction-and-distillation network (PAD-Net), which first predicts a set of intermediate auxiliary tasks ranging from low level to high level, and then the predictions from these intermediate auxiliary tasks are utilized as multi-modal input via our proposed multi-modal distillation modules for the final tasks. During the joint learning, the intermediate tasks not only act as supervision for learning more robust deep representations but also provide rich multi-modal information for improving the final tasks. Extensive experiments are conducted on two challenging datasets (i.e. NYUD-v2 and Cityscapes) for both the depth estimation and scene parsing tasks, demonstrating the effectiveness of the proposed approach.
研究动机与目标
- 推动联合深度估计与场景解析,以提升对视觉场景的理解。
- 提出一个框架,使用中间的多任务预测作为最终任务的多模态输入。
- 引入多模态蒸馏模块,将辅助预测融入深度与语义解码。
- 显示中间监督能够提升表示学习以及最终任务的性能。
提出的方法
- 使用前端编码器从 RGB 输入提取多尺度特征。
- 通过多任务预测模块生成四个中间预测(深度、表面法线、轮廓和语义解析)。
- 将中间预测与三个蒸馏模块融合(A:朴素拼接;B:信息传递;C:注意力引导的信息传递)。
- 从蒸馏后的多模态信息解码最终的深度和场景解析图。
- 使用将六个任务损失(深度、法线、轮廓、解析等)与学习到的权重相结合的联合损失进行训练。
- 推断仅使用 RGB 输入,利用蒸馏后的信息进行最终预测。
实验结果
研究问题
- RQ1中间的多任务预测是否能够为最终的深度和场景解析任务提供有益的多模态引导?
- RQ2与简单拼接或无融合相比,多模态蒸馏策略是否能够改善对辅助预测的融合?
- RQ3在具有挑战性的数据集上,使用多重中间任务对深度和语义解析性能的影响是什么?
- RQ4PAD-Net 相较于单任务基线和以往的联合学习方法,在 NYUD-v2 和 Cityscapes 上的表现如何?
主要发现
- PAD-Net 在 NYUD-v2 上以 ResNet-50 作为前端实现了深度估计与场景解析的 state-of-the-art。
- 三种蒸馏模块(A: 拼接;B: 消息传递;C: 注意力引导的消息传递)在基线之上持续提升,C 模块表现最好。
- 通过蒸馏将多个中间预测(深度、法线、轮廓、语义)整合在一起,相较于直接在最终层进行多任务学习,取得显著提升。
- 在 NYUD-v2 上,PAD-Net-ResNet50 的 rel 0.120、log10 0.055、rms 0.582,且深度的最终准确度/阈值为:delta<1.25 0.817,delta<1.25^2 0.954,delta<1.25^3 0.987;场景解析的平均 IoU 0.502,平均准确率 0.623,像素准确率 0.752。
- 在 Cityscapes 上,PAD-Net-ResNet101 实现 IoU cla 0.803、iIoU cla 0.588、IoU cat 0.908、iIoU cat 0.785,展示了强劲的语义解析性能。
- 该方法在 NYUD-v2 的深度估计与场景解析任务上,超过了共同训练的基线和多种最先进的方法;在 Cityscapes 上也实现了具有竞争力的场景解析结果,同时推断阶段仅使用 RGB 输入。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。