QUICK REVIEW

[論文レビュー] Sluice networks: Learning what to share between loosely related tasks.

Sebastian Ruder, Joachim Bingel|arXiv (Cornell University)|May 23, 2017

Domain Adaptation and Few-Shot Learning参考文献 25被引用数 117

ひとこと要約

Sluice Networksは、関係の薄いタスク間で、深層ニューラルネットワークのどの部分を共有するかを動的に制御するトレーニング可能なパrameterizationを導入し、層、部分空間、スキップ接続において柔軟なハード共有またはソフト共有を可能にしている。このフレームワークは、OntoNotes 5.0を用いて7つのNLPドメインで平均15%の誤差低減を達成し、標準的なマルチタスク学習手法を上回っている。

ABSTRACT

Multi-task learning is partly motivated by the observation that humans bring to bear what they know about related problems when solving new ones. Similarly, deep neural networks can profit from related tasks by sharing parameters with other networks. However, humans do not consciously decide to transfer knowledge between tasks (and are typically not aware of the transfer). In machine learning, it is hard to estimate if sharing will lead to improvements; especially if tasks are only loosely related. To overcome this, we introduce Sluice Networks, a general framework for multi-task learning where trainable parameters control the amount of sharing -- including which parts of the models to share. Our framework goes beyond and generalizes over previous proposals in enabling hard or soft sharing of all combinations of subspaces, layers, and skip connections. We perform experiments on three task pairs from natural language processing, and across seven different domains, using data from OntoNotes 5.0, and achieve up to 15% average error reductions over common approaches to multi-task learning. We analyze when the architecture is particularly helpful, as well as its ability to fit noise. We show that a) label entropy is predictive of gains in sluice networks, confirming findings for hard parameter sharing, and b) while sluice networks easily fit noise, they are robust across domains in practice.

研究の動機と目的

タスクが関係が薄い場合を含め、マルチタスク学習におけるパrameter共有のタイミングと方法を決定する課題に対処すること。
モデルの各コンponent（層、部分空間、スキップ接続）がどの程度共有されるかを自動的かつトレーニング可能な方法で制御できるフレームワークを開発すること。
既存の手法を越えて、アーキテクチャコンponent間でハード共有とソフト共有のすべての組み合わせを可能にする。
特にリソースが限られた状況やノイズが多い状況において、多様なNLPタスクとドメインにおけるフレームワークの有効性を評価すること。
ラベルエントロピーとパフォーマンス向上の関係を調査し、ノイズに対するロバスト性を評価すること。

提案手法

タスク間でネットワークのどの部分を共有するかを学習するパrameter化されたゲーティングメカニズムを導入し、ハード共有とソフト共有の両方を可能にする。
各層や部分空間にトレーニング可能なゲートを備えたモジュラーなアーキテクチャを設計し、共有パラメータへのアクセスを制御する。
層、部分空間、スキップ接続の任意の組み合わせでの共有を許容し、パラメータ共有に対する細かい制御を可能にする。
標準的なバックプロパゲーションを用いて、ゲートパラメータをタスクの共同パフォーマンス最適化に向けて更新することで、モデル全体をエンドツーエンドで訓練する。
ハード共有の微分可能リラクゼーションを用いてソフト共有を可能にし、勾配ベースの最適化によって共有意思決定を最適化する。
OntoNotes 5.0を用いて複数のNLPタスクにフレームワークを適用し、多様なドメインで学習することで一般化性能を評価する。

実験結果

リサーチクエスチョン

RQ1学習可能で適応的な共有メカニズムは、NLPにおける関係が薄いマルチタスク学習タスクのパフォーマンスを向上させることができるか？
RQ2提案されたフレームワークにおいて、ラベルエントロピーとパフォーマンス向上の相関関係は何か？
RQ3Sluice Networksは、異なるドメインに一般化できる程度はどの程度か？また、ノイズデータに対しても耐性を示せるか？
RQ4層、部分空間、スキップ接続レベルでの共有制御が、固定共有戦略よりも優れたパフォーマンスをもたらすか？
RQ5学習された共有パターンは、ラベルノイズやドメインシフトに対してどの程度ロバストか？

主な発見

Sluice Networksは、OntoNotes 5.0を用いて7つの異なるNLPドメインで、標準的なマルチタスク学習ベースラインを上回り、平均で最大15%の誤差低減を達成した。
ラベルエントロピーはパフォーマンス向上の予測要因であることが確認され、不確実性の高いタスクが共有表現からより大きな利益を得ることを裏付けた。
モデルはノイズに適合する能力があるにもかかわらず、ドメイン全体で強いロバスト性を示しており、実世界の設定における実用的価値を示している。
フレームワークは、どのアーキテクチャコンponentを共有すべきかを効果的に学習できており、固定共有戦略を上回るパフォーマンスを発揮した。
層、部分空間、スキップ接続においてハード共有またはソフト共有を学習できる能力が、一般化とパフォーマンスの向上に寄与した。
タスク間の関係が弱いか曖昧であっても、高いパフォーマンスを維持しており、有効なインダクティブバイアスの学習が可能であると示唆した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。