Skip to main content
QUICK REVIEW

[論文レビュー] The interplay between randomness and structure during learning in RNNs

Friedrich Schuessler, Francesca Mastrogiuseppe|arXiv (Cornell University)|Jun 19, 2020
Neural dynamics and brain function被引用数 46
ひとこと要約

この論文は、低次元タスクにおけるRNNの勾配降下学習が結合に対して低秩次元の変化を生み出すことを示し、初期のランダムなW0が学習を加速し最終形を形成する様子を、線形で解析可能なモデルを用いて説明します。

ABSTRACT

Recurrent neural networks (RNNs) trained on low-dimensional tasks have been widely used to model functional biological networks. However, the solutions found by learning and the effect of initial connectivity are not well understood. Here, we examine RNNs trained using gradient descent on different tasks inspired by the neuroscience literature. We find that the changes in recurrent connectivity can be described by low-rank matrices, despite the unconstrained nature of the learning algorithm. To identify the origin of the low-rank structure, we turn to an analytically tractable setting: training a linear RNN on a simplified task. We show how the low-dimensional task structure leads to low-rank changes to connectivity. This low-rank structure allows us to explain and quantify the phenomenon of accelerated learning in the presence of random initial connectivity. Altogether, our study opens a new perspective to understanding trained RNNs in terms of both the learning process and the resulting network structure.

研究の動機と目的

  • 初期のランダムRNN結合とタスク構造が学習ダイナミクスに与える影響を調査する。
  • 勾配降下によって誘起される結合変化(Delta W)の形を特徴付ける。
  • 解析的に扱いやすい線形RNNモデルを用いて低秩の変化の起源を説明する。
  • 初期結合が学習速度と学習の最終構造にどのように相関し、加速さるかを Determineする。
  • より複雑なアーキテクチャとタスクへ拡張することで所見の普遍性を評価する。

提案手法

  • 神経科学に着想を得た3つの低次元タスクでRNNを訓練し、最終的なWを W0 + Delta W として分析する。
  • Delta W の特異値を計算して階数を評価し、機能的な階数を testするために rank-R の刈り込みを行う。
  • 勾配フローを持つ線形で解析的に扱えるRNNモデルを開発し、W1 と高次項を導出する。
  • 初期結合 W0 が learning をどのように改変するかを、行列 B = (I - W0)^{-1} を介して導出し、これが学習時間にどう影響するかを示す。
  • 感情分析タスクで訓練された2層LSTMと比較して洞察を検証する。

実験結果

リサーチクエスチョン

  • RQ1勾配降下で訓練されたRNNは、制約のない学習にもかかわらず低秩の結合変化を生み出すのか。
  • RQ2初期のランダム結合 W0 は学習速度と最終的なネットワーク構造にどのような影響を与えるのか。
  • RQ3線形の解析モデルは、低秩の Delta W の出現・大きさと、それに伴う学習加速を捉えられるのか。
  • RQ4初期の neuroscience-inspired タスクを超えた、より複雑なネットワーク/タスクでも低秩現象は観察されるのか。
  • RQ5Delta W が学習中に W0 とどのようなメカニズムで整列・相関するのか。

主な発見

  • 学習によって誘導される結合変化は、3つの neuroscience-inspired タスク全てで低秩である。
  • 初期の結合 g は学習を加速させ、より高い g は最終的な W における W0 の支配を強め、Delta W のノルムは縮小する。
  • W0 が Delta W との相関構造から離れてシャッフルされると性能が劣化し、W0–Delta W の相関の重要性を示している。
  • 線形で簡略化した設定では、学習により主に rank-one の Delta W が生じ、加速は (1−g^2) の逆二次関数でスケールする。
  • 感情分析タスクで訓練された2層LSTM でも低秩の Delta W が観察され、現象がより複雑なアーキテクチャにも拡張されることを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。