Skip to main content
QUICK REVIEW

[論文レビュー] Progressive Neural Networks

Andrei A. Rusu, Neil C. Rabinowitz|arXiv (Cornell University)|Jun 15, 2016
Model Reduction and Neural Networks被引用数 1,136
ひとこと要約

プログレッシブニューラルネットワークは、各タスクに対して新しいカラムを追加し、以前に学習した特徴への横方向接続を介して転移を可能にする。深層強化学習における壊滅的忘却を回避しつつ、Atari、Pong系のバリアント、および3D迷路タスクでの転移を実現する。

ABSTRACT

Learning to solve complex sequences of tasks--while both leveraging transfer and avoiding catastrophic forgetting--remains a key obstacle to achieving human-level intelligence. The progressive networks approach represents a step forward in this direction: they are immune to forgetting and can leverage prior knowledge via lateral connections to previously learned features. We evaluate this architecture extensively on a wide variety of reinforcement learning tasks (Atari and 3D maze games), and show that it outperforms common baselines based on pretraining and finetuning. Using a novel sensitivity measure, we demonstrate that transfer occurs at both low-level sensory and high-level control layers of the learned policy.

研究の動機と目的

  • 連続的学習を進展させ、新しいタスク特化型カラム構造による壊滅的忘却を防ぐ。
  • 逐次的RLタスク間で、過去のカラムへの横方向接続を学習して転移を実現する。
  • Pong系、Atari、Labyrinthといった多様なRL領域で、ファインチューニングベースラインと転移性能を経験的に評価する。
  • 転移がどこでどう生じるかを、タスク層(Fisher情報ベース)に基づく分析指標で理解する。

提案手法

  • 各タスクごとに新しいネットワークカラムを作成し、忘却を防ぐために前のカラムを固定する。
  • 前タスクの特徴を新カラムの層に結ぶ横方向アダプタを使用する。
  • 複数のRL領域で非同期A3Cを用いて転移を評価する。
  • ベースラインと比較する:単一タスクファインチューニング(トップ層と全モデル)および二カラム prog nets。
  • Average Fisher Sensitivity(AFS)および摂動ベースの分析で転移を分析する。
  • 拡張性の問題に対処し、追加容量の剪定/圧縮の可能性を論じる。

実験結果

リサーチクエスチョン

  • RQ1プログレッシブネットワークは、 priorタスクを忘却することなく、異質なRLタスク間で正の転移を達成できるか。
  • RQ2シーケンシャルRLタスクにおける低レベル(視覚)と高レベル(方策)層の転移はどのように現れるか。
  • RQ3より多くのタスクカラムを追加すると容量の使用が減少する衝撃が見られ、剪定や圧縮が現実的か。
  • RQ4Pong系、Atari、LabyrinthといったRL領域で、標準的なファインチューニングベースラインと比較して progressive転移はどうなるか。
  • RQ5ネットワーク内のどの指標(例:Fisherベースの感度)が転移が起こる場所を示すか。

主な発見

  • プログレッシブネットワークは、RLタスク間の転移学習でしばしば強力なファインチューニングベースラインを上回る。
  • 低レベルの感覚層と高レベルの制御層の両方で転移が起こり得ることが、特徴再利用とAFSスコアの分析から示された。
  • 追加カラムにより正の転移が複数の領域で増加する一方、 prior特徴が新機能学習なしに支配する場合には負の転移も生じる。
  • 追加容量の実際の使用割合はカラムを増やすにつれて減少する傾向があり、剪定や圧縮が成長を緩和できることを示唆。
  • 海賊行為的なタスクペア(例:AtariのSeaquestからGopher)間でも転移が生じ、知識再利用の頑健性を示す。
  • 強制的適応( priorカラムの固定)により忘却を防ぎ、破壊的な干渉なしに複数タスクでの同時性能を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。