[论文解读] Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
本文提出了一种基于原理的多任务损失,利用同方差(任务)不确定性在单幅单目图像中自动加权语义分割、实例分割和深度回归的损失,优于单任务模型。
Numerous deep learning applications benefit from multi-task learning with multiple regression and classification objectives. In this paper we make the observation that the performance of such systems is strongly dependent on the relative weighting between each task's loss. Tuning these weights by hand is a difficult and expensive process, making multi-task learning prohibitive in practice. We propose a principled approach to multi-task deep learning which weighs multiple loss functions by considering the homoscedastic uncertainty of each task. This allows us to simultaneously learn various quantities with different units or scales in both classification and regression settings. We demonstrate our model learning per-pixel depth regression, semantic and instance segmentation from a monocular input image. Perhaps surprisingly, we show our model can learn multi-task weightings and outperform separate models trained individually on each task.
研究动机与目标
- 推动在场景理解的多任务学习中实现有效损失加权的需求。
- 提出一种基于同方差不确定性的原理性多任务损失,用以平衡回归与分类损失。
- 设计一个统一的编码器-解码器架构,使其能够同时输出语义分割、实例分割和深度。
- 证明几何信息与语义信息的联合学习可以提升相对于单任务模型的性能。
提出的方法
- 通过对每个任务建模为高斯分布(回归)或Softmax似然(分类),并引入一个任务特定的噪声参数(不确定性),来形成一个概率化的多任务损失。
- 推导一个联接损失,将任务损失按其(学习得到的)噪声项的倒数进行加权,并包含一个正则化的对数方差项以防止退化解。
- 训练一个基于DeepLabV3的编码器,并为语义分割、实例分割和深度回归设计任务特定的解码器。
- 在实例分割中使用实例质心回归方法,其中每个像素投票指向实例质心,聚类(OPTICS)产生最终实例。
- 对深度回归预测每像素的逆深度,并对语义分割采用交叉熵损失,通过学习到的不确定性权重将两者结合。
实验结果
研究问题
- RQ1同方差(任务)不确定性是否可用于在深度网络中自动平衡多任务的损失?
- RQ2具备不确定性加权损失的单一多任务模型是否优于分别训练的单任务模型在场景几何和语义方面的表现?
- RQ3深度、语义和实例分割的联合学习如何影响道路场景理解的性能与泛化?
- RQ4哪种架构布置最能支持从单目输入进行联合语义、实例和深度预测?
主要发现
- 基于不确定性的任务加权优于天真或均匀加权损失的多任务性能。
- 所提出的方法可以超越单独的单任务模型,甚至在网格搜索得到的最优调权上限附近或超越。
- 联合学习在Cityscapes子集和完整数据集上,在语义分割、实例分割和深度估计方面产生具有竞争力甚至优越的结果。
- 该模型在单一网络上实现三项任务的近似SOTA水平,展示了有效的共享表示学习。
- 学习得到的任务权重在训练过程中演化,趋向于在特定比率下偏向语义分割、深度回归和实例分割——在训练结束时报告的比率分别为语义、深度和实例的比值为 43:1:0.16(最终模型)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。