[論文レビュー] Backpropamine: training self-modifying neural networks with differentiable neuromodulated plasticity
本論文は、勾配降下法で訓練される differentiable neuromodulated plasticity のフレームワークである Backpropamine を導入し、自己改変可能なニューラルネットワークを実現し、RLタスクと大規模言語モデリングタスクでの性能向上を示す。
The impressive lifelong learning in animal brains is primarily enabled by plastic changes in synaptic connectivity. Importantly, these changes are not passive, but are actively controlled by neuromodulation, which is itself under the control of the brain. The resulting self-modifying abilities of the brain play an important role in learning and adaptation, and are a major basis for biological reinforcement learning. Here we show for the first time that artificial neural networks with such neuromodulated plasticity can be trained with gradient descent. Extending previous work on differentiable Hebbian plasticity, we propose a differentiable formulation for the neuromodulation of plasticity. We show that neuromodulated plasticity improves the performance of neural networks on both reinforcement learning and supervised learning tasks. In one task, neuromodulated plastic LSTMs with millions of parameters outperform standard LSTMs on a benchmark language modeling task (controlling for the number of parameters). We conclude that differentiable neuromodulation of plasticity offers a powerful new framework for training neural networks.
研究の動機と目的
- 生物学的強化学習に着想を得た、勾配降下法で訓練可能な機構として、ニューロモジュレーションプラスティシティを動機づけ、モデル化する。
- 差分可能な可塑性に瞬間ごとのニューロモジュレーションを組み込む。
- 可塑性とニューロモジュレーションの性能利点を、強化学習タスクと言語モデリングで実証する。
提案手法
- 各結合が固定重み wij を持ち、alpha_ij Hebb_ij による可塑成分を持つ、微分可能なヘビアン可塑性に基づく。Hebb_ij(t+1)=Clip(Hebb_ij(t)+η x_i(t-1)x_j(t)).
- 塑性変化をスケーリングするニューモジュレーション M(t) を導入する。単純なニューモジュレーションは Hebb の更新式の η を M(t) に置換する。
- エリジビリティトレースを用いた代替案を提供し、Hebb_ij(t+1)=Clip(Hebb_ij(t)+M(t)E_ij(t)) かつ E_ij(t+1)=(1-η)E_ij(t)+η x_i(t-1)x_j(t).
- 2つのタスク variante: 単純なグローバルニューモジュレーションと、エリジビリティトレースによるレトロアクティブニューモジュレーションを説明する。
- フレームワークを強化学習および言語モデリングのタスクに適用し、ニューモジュレーションプラスティシティを用いた Penn Tree Bank LSTM 構成を含む。
- 注: 可塑なのは再帰的重みのみで、入力/出力は非可塑のまま。
実験結果
リサーチクエスチョン
- RQ1差分可能なニューロモジュレーションプラスティシティは、RLおよび教師ありタスクで非可塑性および非モジュレーションなネットワークより学習性能を向上させるか。
- RQ2勾配降下法は自己改変性を持つネットワークを最適化して PTB の言語モデリング困難度を改善できるか。
- RQ3単純なニューモジュレーションとレトロアクティブ(エリジビリティトレース)モジュレーションは性能と安定性の面でどう比較されるか。
- RQ4ニューモジュレーションプラスティシティによってタスク全体で現れる行動的特徴と学習ダイナミクスは何か。
主な発見
| モデル | テスト perplexity | Notes |
|---|---|---|
| Baseline LSTM (similar to Zaremba et al. 2014) | 104.26 b1 0.22 | 16 runs, basic model |
| LSTM with Differential Plasticity | 103.80 e 0.25 | No neuromodulation, four recurrent connections per node with per-connection η |
| LSTM with Simple Neuromodulation | 102.65 e 0.30 | Neuromodulatory signal M(t) replaces η in Hebb update |
| LSTM with Retroactive Neuromodulation | 102.48 e 0.28 | Eligibility traces active, advantages over simple mod. |
| Baseline large LSTM model (Merity & Socher 2017) | 62.48 (62.40, 62.60) | State-of-the-art-like baseline for large model |
| Large LSTM model with neuromodulated plasticity | 61.44 (61.37, 61.68) | Large model with neuromodulated plasticity |
- ニューモジュレートされた可塑性ネットワークは、キューと報酬の連携タスクで非モジュレーションおよび非可塑ネットワークよりも優れている。
- ニューモジュレーションは、非モジュレーションな可塑性よりも迷路ナビゲーションの性能を改善する。
- 言語モデリングでは、 differentiable plasticity を用いた LSTMs がベースライン LSTM を上回り、ニューモジュレーションを追加すると困難度がさらに低下する。
- 大規模 PTB モデルでは、レトロアクティブニューモジュレーション(エリジビリティトレース)は単純モジュレーションを上回り、困難度の改善が進む。
- Table 1 はテストパープレキシティを示し、ニューモジュレートされた可塑 LSTMs はベースラインより各モデルで低い値を得ている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。