QUICK REVIEW

[論文レビュー] Regularizing Deep Multi-Task Networks using Orthogonal Gradients

Mihai Şuteu, Yike Guo|arXiv (Cornell University)|Dec 14, 2019

Sparse and Compressive Sensing Techniques参考文献 34被引用数 30

ひとこと要約

この論文では、深層マルチタスクネットワークにおけるタスク勾配の直交性を強制することで干渉を低減し、性能を向上させる、新しい勾配正則化手法CosRegを提案する。異なるタスクの勾配間のコサイン類似度を最小化することで、デコーダーが異なる特徴表現から学習するよう促し、セマンティックセグメンテーションおよび深度推定タスクにおいてNYUv2およびSUN RGB-Dで競争力ある結果を達成する。

ABSTRACT

Deep neural networks are a promising approach towards multi-task learning because of their capability to leverage knowledge across domains and learn general purpose representations. Nevertheless, they can fail to live up to these promises as tasks often compete for a model's limited resources, potentially leading to lower overall performance. In this work we tackle the issue of interfering tasks through a comprehensive analysis of their training, derived from looking at the interaction between gradients within their shared parameters. Our empirical results show that well-performing models have low variance in the angles between task gradients and that popular regularization methods implicitly reduce this measure. Based on this observation, we propose a novel gradient regularization term that minimizes task interference by enforcing near orthogonal gradients. Updating the shared parameters using this property encourages task specific decoders to optimize different parts of the feature extractor, thus reducing competition. We evaluate our method with classification and regression tasks on the multiDigitMNIST, NYUv2 and SUN RGB-D datasets where we obtain competitive results.

研究の動機と目的

共有パラメータ最適化中の競合勾配によって引き起こされる深層マルチタスクネットワークにおけるタスク干渉を解消すること。
勾配方向の整合性（特に直交性）がマルチタスク性能の向上と相関するかどうかを調査すること。
タスク間の競合を低減するために、勾配の直交性を明示的に強制する新しい正則化技術を開発すること。
タスクの類似度やスケールの変動に応じて、NYUv2およびSUN RGB-Dを含む多様なマルチタスクビジョンベンチマークでこの手法を評価すること。
ドロップアウトやバッチノーマライゼーションといった一般的な正則化手法が、どのようにして暗黙的に勾配の直交性を誘導するかを検討すること。

提案手法

共有パラメータに関して、異なるタスクの勾配間の二乗コサイン類似度を最小化する新しい正則化項を提案する。
非直交な勾配方向をペナルティ化する損失成分を導入し、タスク固有のデコーダーが共有特徴抽出器の異なる部分を利用するよう促進する。
全体のマルチタスク損失における勾配直交性ペナルティの強度を制御するハイパーパrameter α を用いて正則化を適用する。
NYUv2およびSUN RGB-Dにおける実験では、学習率減衰とデータオーグメンテーション（例：水平反転）を併用したAdam最適化手法を用いる。
セマンティックセグメンテーションおよび深度推定タスクのための標準的なハードパラメータ共有アーキテクチャ（共有エンコーダとタスク固有のデコーダー）を採用する。
訓練全体を通して勾配角度の分散とコサイン分布を測定し、正則化が勾配相互作用に与える影響を分析する。

実験結果

リサーチクエスチョン

RQ1タスク勾配間の角度の分散が大きいことは、マルチタスク性能が低いことと相関するか？
RQ2勾配直交性の明示的正則化は、マルチタスク深層ネットワークにおける一般化性能の向上とタスク干渉の低減に寄与するか？
RQ3ドロップアウトやバッチノーマライゼーションといった一般的な正則化手法は、暗黙的に勾配の直交性を促進するか？
RQ4類似度の高いタスク（例：粗いと細かいセマンティックセグメンテーション）において、勾配直交性はどのように機能するか？
RQ5勾配方向正則化は、GradNorm や Kendall et al. (2018) の不確実性重み付け法のような、大きさに基づく損失重み付け手法を上回る性能を発揮できるか？

主な発見

正則化を施さないマルチタスクモデルでは、タスク勾配間のコサイン類似度に高い分散が見られ、頻繁な干渉が示唆される。
良好な性能を示すモデルは、常にコサイン類似度がゼロ中心で分散が小さい分布を示す。
ドロップアウトとバッチノーマライゼーションは、暗黙的に勾配コサイン類似度の分散を低減しており、訓練中に直交性を促進していると考えられる。
提案されたCosReg手法は、NYUv2およびSUN RGB-Dで最先端の性能を達成し、等重みベースラインやGradNorm、Kendall et al. (2018) よりも優れている。
SUN RGB-Dデータセットでは、CosRegは粗いセグメンテーションで1-mIoU 0.644、細かいセグメンテーションで0.714を達成し、すべてのベースラインを上回った。
粗いと細かいセグメンテーションのような非常に相関の高いタスクに対しても、CosRegは勾配直交性を効果的に強制し、性能向上を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。