QUICK REVIEW

[論文レビュー] Multi-Task Learning with Deep Neural Networks: A Survey

Michael Crawshaw|arXiv (Cornell University)|Sep 10, 2020

Domain Adaptation and Few-Shot Learning参考文献 168被引用数 401

ひとこと要約

ディープなマルチタスク学習 (MTL) の総合的な調査で、アーキテクチャ、最適化、タスク関係学習をカバーし、NLP、ビジョン、RL の視点とベンチマーク要約を含む。

ABSTRACT

Multi-task learning (MTL) is a subfield of machine learning in which multiple tasks are simultaneously learned by a shared model. Such approaches offer advantages like improved data efficiency, reduced overfitting through shared representations, and fast learning by leveraging auxiliary information. However, the simultaneous learning of multiple tasks presents new design and optimization challenges, and choosing which tasks should be learned jointly is in itself a non-trivial problem. In this survey, we give an overview of multi-task learning methods for deep neural networks, with the aim of summarizing both the well-established and most recent directions within the field. Our discussion is structured according to a partition of the existing deep MTL techniques into three groups: architectures, optimization methods, and task relationship learning. We also provide a summary of common multi-task benchmarks.

研究の動機と目的

深層 MTL の設計、課題、進展を要約する。
MTL 手法をアーキテクチャ、最適化、タスク関係学習に分類する。
負の移転を低減するために共有とタスク特有の成分のバランスを取る設計を強調する。
最適化戦略とタスク関係がどのように学習・活用されるかを論じる。
領域横断で一般的な MTL ベンチマークの概要を提供する。

提案手法

MTL 手法をアーキテクチャ設計、最適化手法、タスク関係学習に分類する。
アーキテクチャのテンプレート（共有トランク、クロストーク、予測蒸留、タスクルーティング、シングルタスキング）とドメイン別のバリエーション（ビジョン、NLP、RL）を説明する。
アテンションモジュール、ゲーティング、フュージョンを含むタスク間情報フロー戦略を説明する（例：Cross-Stitch、NDDR-CNN）。
負の転移を緩和する最適化アプローチを要約する。敵対的特徴分離や階層的/連鎖的監督を含む。
タスク関係と表現（埋め込み、転送親和性）の組み込みと、ドメイン特化の適用（BERT ベースの MT-DNN）を論じる。
CV、NLP、RL におけるマルチタスクベンチマークとドメイン特化の応用をレビューする。

実験結果

リサーチクエスチョン

RQ1どのようなアーキテクチャ設計とメカニズムが複数のタスク間で効果的な共有表現を実現するか？
RQ2最適化戦略と損失形態は深層 MTL における負の転移をどう緩和するか？
RQ3どのようなメカニズムがタスク関係を学習・活用して結合性能を向上させるか？
RQ4視覚、NLP、RL における深層 MTL の主要なベンチマークと評価手法は何か？
RQ5トランスフォーマー基盤およびマルチモーダルアプローチが深層 MTL アーキテクチャにどのような影響を与えたか？

主な発見

共有トランクアーキテクチャ、クロストーク、タスク特有のモジュールは情報共有をバランスさせ、負の転移を低減する。
予測蒸留とマルチスケールのタスク相互作用は関連タスクの性能を向上させ得る。
敵対的・直交性ベースの分離はタスク特異的 vs 共有特徴表現を強制できる。
タスクルーティング層は多くのタスク間の拡張可能な共有を実現し、従来の Cross-Stitch ネットワークより性能向上をもたらす。
BERTベースの共有埋め込み（MT-DNN）は公開時点で複数の GLUE タスクで最先端を達成した。
階層的監督と階層的タスク訓練は NLP における低レベルから高レベルまでのタスク統合を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。