QUICK REVIEW

[論文レビュー] Deep Multi-task Representation Learning: A Tensor Factorisation Approach

Yongxin Yang, Timothy M. Hospedales|arXiv (Cornell University)|May 20, 2016

Tensor decomposition and applications被引用数 105

ひとこと要約

この論文は DMTRL（Deep Multi-Task Learning framework）を導入します。DMTRL はテンソル分解（ Tucker、TT、Last Axis Flattening ）を介して層ごとの共有構造を学習し、深層ネットワークにおける手動で共有パターンを指定することなく、エンドツーエンドの知識共有を実現します。

ABSTRACT

Most contemporary multi-task learning methods assume linear models. This setting is considered shallow in the era of deep learning. In this paper, we present a new deep multi-task representation learning framework that learns cross-task sharing structure at every layer in a deep network. Our approach is based on generalising the matrix factorisation techniques explicitly or implicitly used by many conventional MTL algorithms to tensor factorisation, to realise automatic learning of end-to-end knowledge sharing in deep networks. This is in contrast to existing deep learning approaches that need a user-defined multi-task sharing strategy. Our approach applies to both homogeneous and heterogeneous MTL. Experiments demonstrate the efficacy of our deep multi-task representation learning in terms of both higher accuracy and fewer design choices.

研究の動機と目的

深層マルチタスク学習を浅い線形モデルを超えてエンドツーエンドで動機付ける。
DNN における層間および出力間の共有のために、マトリクス分解ベースの MTL をテンソル分解へ一般化する。
同質および異質の MTL タスクのために、すべての層で自動的に共有構造を学習できるようにする。
畳み込み層と全結合層の両方をサポートする、ユーザー指定の共有設計を削減するスケーラブルなフレームワークを提供する。

提案手法

共有パラメータとタスク特有パラメータを符号化する高次テンソルとしてタスクモデルを表現する。
層を横断して重みテンソルを因子分解するために、 Tucker分解、Tensor Train分解、または Last Axis Flattening を適用し、共有パターンを実現する。
学習済みの因子分解コンポーネントから順伝播中に重みテンソルを合成し、非微分可能なステップを介さずにバックプロパゲーションを可能にする。
畳み込み層にも共有機構を拡張し、畳み込みカーネルを共有因子を持つ高次テンソルとして扱う。
標準のバックプロパゲーションを用いて学習する；初期化は STLベースの分解重みを利用し、最大再構成誤差の単一ハイパーパラメータ（epsilon=10%）で行える。

実験結果

リサーチクエスチョン

RQ1同質および異質の MTL 設定の下で、深層ニューラルネットワークは各層で自動的にタスク間の共有を学習できるのか。
RQ2テンソル分解は Deep MTL において手動のアーキテクチャ探索を減らす、原理的でデータ駆動の共有メカニズムを提供できるのか。
RQ3Tucker、TT、Last Axis Flattening は DNN 内でタスクと出力間のパラメータをどのように共有するのか。
RQ4DMTRL 手法は単一タスク学習を上回り、慎重に設計されたユーザー定義の MTL ベースラインに匹敵または上回るのか、さまざまなデータセットで検証できるのか。
RQ5学習された共有の実用的影響は、深層 MTL の性能とアーキテクチャ設計にどのように影響するのか。

主な発見

DMTRL 手法は評価対象のタスクで一貫して単一タスク学習を上回る。
DMTRL-Tucker および DMTRL-TT は、学習データが限られている場合に最良のユーザー定義 MTL アーキテクチャと同等以上を、データが豊富な場合には同等程度を達成する。
アプローチは層ごとの共有を学習し、上位層ほど共有が小さくなることを徐々に示す—下位層が上位層より共有されやすいという直感と一致する。
同質・異質・多言語文字認識タスク全般において、DMTRL 系は STL に対して堅牢な性能向上を示し、UD-MTL に対しても競争力のある結果を示す。
共有強度は S-様因子行列で定量化でき、深い層ほど共有が少なく、初期層ほど共有が大きい傾向がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。