QUICK REVIEW

[論文レビュー] An analytic theory of generalization dynamics and transfer learning in deep linear networks

Andrew K. Lampinen, Surya Ganguli|arXiv (Cornell University)|Sep 27, 2018

Domain Adaptation and Few-Shot Learning参考文献 22被引用数 38

ひとこと要約

この論文は、特異値分解（SVD）を用いて重みの動的変化の正確な解を導出することにより、深層線形ネットワークにおける一般化およびトランスファーラーニングの解析的理論を構築する。トランスファーパフォーマンスは、ソースタスクとターゲットタスクの特異ベクトルおよび特異値の整合性によって支配され、最適なトランスファーは、ソースタスクの特異ベクトルがターゲットタスクと一致し、特異値が保存される場合に達成される。

ABSTRACT

Much attention has been devoted recently to the generalization puzzle in deep learning: large, deep networks can generalize well, but existing theories bounding generalization error are exceedingly loose, and thus cannot explain this striking performance. Furthermore, a major hope is that knowledge may transfer across tasks, so that multi-task learning can improve generalization on individual tasks. However we lack analytic theories that can quantitatively predict how the degree of knowledge transfer depends on the relationship between the tasks. We develop an analytic theory of the nonlinear dynamics of generalization in deep linear networks, both within and across tasks. In particular, our theory provides analytic solutions to the training and testing error of deep networks as a function of training time, number of examples, network size and initialization, and the task structure and SNR. Our theory reveals that deep networks progressively learn the most important task structure first, so that generalization error at the early stopping time primarily depends on task structure and is independent of network size. This suggests any tight bound on generalization error must take into account task structure, and explains observations about real data being learned faster than random data. Intriguingly our theory also reveals the existence of a learning algorithm that proveably out-performs neural network training through gradient descent. Finally, for transfer learning, our theory reveals that knowledge transfer depends sensitively, but computably, on the SNRs and input feature alignments of pairs of tasks.

研究の動機と目的

深層線形ネットワークにおける一般化およびトランスファーラーニングを理解するための厳密な解析的フレームワークを構築すること。
線形ネットワークにおけるトランスファーラーニングが性能を向上させる正確な数学的条件を同定すること。
SVD分解を用いて、トレーニング中の重みの動的変化が一般化およびトランスファーとどのように関係するかを特定すること。
特異ベクトルおよび特異値がトランスファー効果を決定づける役割を定量化すること。

提案手法

著者たちは、重み行列を直交行列と特異値に分解するため、特異値分解（SVD）を用いて深層線形ネットワークをモデル化する。
SVDに基づくパrameterizationを用いて、確率的勾配降下法（SGD）中のネットワーク重みの正確な動的変化を導出する。
この手法では、左特異ベクトルおよび右特異ベクトル、特異値の進化を別々に分析し、特異ベクトルがデータ依存の方向に収束することを示す。
トランスファーラーニングは、ソースおよびターゲットタスクに対応するブロックに重み行列を分解することで分析され、タスク固有の成分間に直交性が保証される。
トランスファー効果は、類似度行列 Q = V̄_A^T V̄_B によって定量化され、これはソースタスクとターゲットタスクの右特異ベクトル間の整合性を測定する。
理論は、トランスファーパフォーマンスが、V̄_A および V̄_B の整合性および特異値の保存にのみ依存し、初期の U 行列には依存しないことを示している。

実験結果

リサーチクエスチョン

RQ1ソースタスクとターゲットタスクの特異ベクトルおよび特異値が、深層線形ネットワークにおけるトランスファーパフォーマンスをどのように共同で決定づけるか？
RQ2SGD下での深層線形ネットワークにおける一般化誤差の正確な解析的形は何か？
RQ3重み行列内のタスク固有の成分の直交性は、トランスファーラーニングにどのように影響するか？
RQ4どのような条件下で、トランスファーラーニングが線形ネットワークにおける一般化を向上させるか？
RQ5なぜ特定の事前学習戦略が線形モデルにおいてより優れたトランスファーパフォーマンスをもたらすのか？

主な発見

トランスファーパフォーマンスは、類似度行列 Q = V̄_A^T V̄_B によって測定される、ソースタスクとターゲットタスクの右特異ベクトル間の整合性にのみ依存する。
左特異ベクトル（U 行列）は、トランスファーパフォーマンスに影響しない。なぜなら、それらは直交的かつタスク間で分離されたまま保たれるからである。
最適なトランスファーは、ソースタスクの特異ベクトルがターゲットタスクの特異ベクトルと一致し、特異値がタスク間で保存される場合に達成される。
一般化誤差は解析的に導出され、特異値および特異ベクトルの整合性に依存することが示された。
理論は、特定の事前学習戦略がより効果的である理由を説明する：それらは、ソースタスクの特異ベクトルをターゲットタスクの構造と一致させる。
モデルは、ソースタスクとターゲットタスクの特異ベクトルが直交している場合、特異値の大きさに関わらずトランスファーが失敗することを予測する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。