Skip to main content
QUICK REVIEW

[論文レビュー] An Overview of Multi-Task Learning in Deep Neural Networks

Sebastian Ruder|arXiv (Cornell University)|Jun 15, 2017
Domain Adaptation and Few-Shot Learning参考文献 45被引用数 2,413
ひとこと要約

深層ニューラルネットワークにおけるマルチタスク学習(MTL)の総括的概要を詳述し、ハードおよびソフトパラメータ共有、MTLが機能する仕組み、歴史的および最近の文献、そして補助タスクの選択に関する指針を示す。

ABSTRACT

Multi-task learning (MTL) has led to successes in many applications of machine learning, from natural language processing and speech recognition to computer vision and drug discovery. This article aims to give a general overview of MTL, particularly in deep neural networks. It introduces the two most common methods for MTL in Deep Learning, gives an overview of the literature, and discusses recent advances. In particular, it seeks to help ML practitioners apply MTL by shedding light on how MTL works and providing guidelines for choosing appropriate auxiliary tasks.

研究の動機と目的

  • 多様な関連タスクを活用することで一般化を改善できるという帰納的転移の一形態として、マルチタスク学習を動機づける。
  • 2つのコアな深層学習におけるMTLアプローチ(hard parameter sharingとsoft parameter sharing)と、それらのトレードオフを要約する。
  • MTLの有効性と正則化効果の背後にあるメカニズムと文献を調査する。
  • MTLにおいて主タスクの利益のために補助タスクを選択・設計する方法について議論する。

提案手法

  • 共通の隠れ層をタスク間で共有し、タスク固有の出力ヘッドを持つhard parameter sharingを説明する。
  • 各タスクが独自のモデルを持つが、パラメータをタスク間で類似させるよう正則化するsoft parameter sharingを説明する。
  • 多タスク設定におけるブロックスパースおよび低ランク表現に関連する正則化メカニズムを説明する。
  • MTLが有効である理由として、暗黙的データ拡張、アテンションフォーカシング、盗聴、表現バイアスといった正則化メカニズムを説明する。
  • 深層学習以外のMTL文献を調査して、深層学習アプローチと対比する。
  • 最近の深層学習MTLアプローチ(例:Deep Relationship Networks、Cross-stitch Networks、Sluice Networks)を紹介し、共有すべきものを学習することを目的とする。

実験結果

リサーチクエスチョン

  • RQ1深層ニューラルネットワークにおいてMTLを実装するための主な手法とそれぞれの利点は何か。
  • RQ2実践におけるMTLの一般化利得を説明するメカニズムは何か。
  • RQ3最近の深層学習アプローチは、タスク間で何を共有するかを学習する能力をどのように進歩させたか。
  • RQ4実務上、MTLの gains を得るための補助タスクとして何が有効であるか。

主な発見

  • ハードパラメータ共有はニューラルMTLにおける標準的なアプローチであり、タスク固有のヘッドに比べて過剰適合を抑制する。
  • ソフトパラメータ共有は正則化を用いてタスク間の関連性を保ちつつタスク固有性を維持する。
  • MTLは、暗黙データ拡張、アテンションフォーカシング、盗聴、表現バイアス、正則化といった機構を提供し、一般化の改善を説明する。
  • 最近の深層学習MTL研究は、何を共有するかを学習し、タスク階層をモデル化する方向へと進んでおり、固定の共有方式を超えている。
  • 補助タスクは関連性がある、対立的( adversarial)、またはヒントベースであり、それらの設計はNLP、 vision、speech などの分野でのMTL利得に影響を与える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。