[論文レビュー] Deep Multi-task Representation Learning: A Tensor Factorisation Approach
この論文は DMTRL(Deep Multi-Task Learning framework)を導入します。DMTRL はテンソル分解( Tucker、TT、Last Axis Flattening )を介して層ごとの共有構造を学習し、深層ネットワークにおける手動で共有パターンを指定することなく、エンドツーエンドの知識共有を実現します。
Most contemporary multi-task learning methods assume linear models. This setting is considered shallow in the era of deep learning. In this paper, we present a new deep multi-task representation learning framework that learns cross-task sharing structure at every layer in a deep network. Our approach is based on generalising the matrix factorisation techniques explicitly or implicitly used by many conventional MTL algorithms to tensor factorisation, to realise automatic learning of end-to-end knowledge sharing in deep networks. This is in contrast to existing deep learning approaches that need a user-defined multi-task sharing strategy. Our approach applies to both homogeneous and heterogeneous MTL. Experiments demonstrate the efficacy of our deep multi-task representation learning in terms of both higher accuracy and fewer design choices.
研究の動機と目的
- 深層マルチタスク学習を浅い線形モデルを超えてエンドツーエンドで動機付ける。
- DNN における層間および出力間の共有のために、マトリクス分解ベースの MTL をテンソル分解へ一般化する。
- 同質および異質の MTL タスクのために、すべての層で自動的に共有構造を学習できるようにする。
- 畳み込み層と全結合層の両方をサポートする、ユーザー指定の共有設計を削減するスケーラブルなフレームワークを提供する。
提案手法
- 共有パラメータとタスク特有パラメータを符号化する高次テンソルとしてタスクモデルを表現する。
- 層を横断して重みテンソルを因子分解するために、 Tucker分解、Tensor Train分解、または Last Axis Flattening を適用し、共有パターンを実現する。
- 学習済みの因子分解コンポーネントから順伝播中に重みテンソルを合成し、非微分可能なステップを介さずにバックプロパゲーションを可能にする。
- 畳み込み層にも共有機構を拡張し、畳み込みカーネルを共有因子を持つ高次テンソルとして扱う。
- 標準のバックプロパゲーションを用いて学習する;初期化は STLベースの分解重みを利用し、最大再構成誤差の単一ハイパーパラメータ(epsilon=10%)で行える。
実験結果
リサーチクエスチョン
- RQ1同質および異質の MTL 設定の下で、深層ニューラルネットワークは各層で自動的にタスク間の共有を学習できるのか。
- RQ2テンソル分解は Deep MTL において手動のアーキテクチャ探索を減らす、原理的でデータ駆動の共有メカニズムを提供できるのか。
- RQ3Tucker、TT、Last Axis Flattening は DNN 内でタスクと出力間のパラメータをどのように共有するのか。
- RQ4DMTRL 手法は単一タスク学習を上回り、慎重に設計されたユーザー定義の MTL ベースラインに匹敵または上回るのか、さまざまなデータセットで検証できるのか。
- RQ5学習された共有の実用的影響は、深層 MTL の性能とアーキテクチャ設計にどのように影響するのか。
主な発見
- DMTRL 手法は評価対象のタスクで一貫して単一タスク学習を上回る。
- DMTRL-Tucker および DMTRL-TT は、学習データが限られている場合に最良のユーザー定義 MTL アーキテクチャと同等以上を、データが豊富な場合には同等程度を達成する。
- アプローチは層ごとの共有を学習し、上位層ほど共有が小さくなることを徐々に示す—下位層が上位層より共有されやすいという直感と一致する。
- 同質・異質・多言語文字認識タスク全般において、DMTRL 系は STL に対して堅牢な性能向上を示し、UD-MTL に対しても競争力のある結果を示す。
- 共有強度は S-様因子行列で定量化でき、深い層ほど共有が少なく、初期層ほど共有が大きい傾向がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。