QUICK REVIEW

[論文レビュー] Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

Alex Kendall, Yarin Gal|arXiv (Cornell University)|May 19, 2017

Domain Adaptation and Few-Shot Learning参考文献 44被引用数 500

ひとこと要約

本論文は、ホモスケダス性（タスク）不確実性を用いて、単一のモノクロ画像から意味セマンティック分割、インスタンス分割、深度回帰の損失を自動的に重み付けする原理的なマルチタスク損失を提案し、単一タスクモデルを上回る性能を示す。

ABSTRACT

Numerous deep learning applications benefit from multi-task learning with multiple regression and classification objectives. In this paper we make the observation that the performance of such systems is strongly dependent on the relative weighting between each task's loss. Tuning these weights by hand is a difficult and expensive process, making multi-task learning prohibitive in practice. We propose a principled approach to multi-task deep learning which weighs multiple loss functions by considering the homoscedastic uncertainty of each task. This allows us to simultaneously learn various quantities with different units or scales in both classification and regression settings. We demonstrate our model learning per-pixel depth regression, semantic and instance segmentation from a monocular input image. Perhaps surprisingly, we show our model can learn multi-task weightings and outperform separate models trained individually on each task.

研究の動機と目的

シーン理解のマルチタスク学習における効果的な損失重み付けの必要性を動機付ける。
回帰と分類の損失をバランスさせるため、ホモスケダス性不確実性に基づく原理的なマルチタスク損失を提案する。
意味セマンティック分割、インスタンス分割、深度回帰を同時に出力する統一型エンコーダ-デコーダアーキテクチャを設計する。
幾何と意味情報を同時に学習することが、単一タスクモデルより性能を向上させることを示す。

提案手法

各タスクをガウス分布（回帰）またはソフトマックス尤度（分類）でモデリングし、タスク固有のノイズパラメータ（不確実性）を導入することで、確率的なマルチタスク損失を定式化する。
学習されたノイズ項の逆数でタスク損失を重み付けする結合損失を導出し、退化解を防ぐ正則化的な対数分散項を導入する。
Semantic segmentation、Instance segmentation、Depth regressionのタスク固有デコーダを備えたDeepLabV3ベースのエンコーダを訓練する。
Per-pixelの票がインスタンスセントロイドを指すインスタンスセントロイド回帰アプローチを用い、クラスタリング（OPTICS）で最終的なインスタンスを得る。
Depth regressionのために各ピクセルの逆深度を予測し、Semantic segmentationにはクロスエントロピー損失を用い、学習された不確実性ベースの重みでそれらを結合する。

実験結果

リサーチクエスチョン

RQ1ホモスケダス性（タスク）不確実性を用いて、深層ネットワークの複数タスク間の損失を自動的にバランスさせることができるか。
RQ2不確実性重み付け損失を用いた単一のマルチタスクモデルは、シーンのジオメトリと意味情報を個別に学習した単一タスクモデルより優れているか。
RQ3深度、意味、インスタンス分割の共同学習は、道路シーン理解の性能と一般化にどのように影響するか。
RQ4モノキュラー入力からの共同意味・インスタンス・深度予測を最もよく支えるアーキテクチャ的配置は何か。

主な発見

不確実性ベースのタスク重み付けは、素朴なまたは一様に重み付けした損失よりもマルチタスク性能を向上させる。
提案手法は、別個の単一タスクモデルを上回り、グリッド探索で得られる最適に調整された重みを近似または超えることがある。
共同学習はCityscapesのサブセットおよび全データセットで、意味分割、インスタンス分割、深度推定のいずれにおいても競争力あるいは優れた結果を生む。
単一ネットワークで三つのタスク全てに対して最先端に近い（あるいは先行する）結果を達成し、共有表現学習が効果的であることを示す。
学習中に得られるタスク重みは進化し、特定の比率で意味セマンティック分割、深度回帰、インスタンス分割を優先する傾向を示す。最終モデルでは報告比率が semantic:depth:instance = 43:1:0.16 だった（最終モデル）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。