Skip to main content
QUICK REVIEW

[論文レビュー] Experience Replay for Continual Learning

David Rolnick, Arun Ahuja|arXiv (Cornell University)|Nov 28, 2018
Domain Adaptation and Few-Shot Learning参考文献 29被引用数 375
ひとこと要約

CLEAR は新しいデータからのオンポリシー学習とオフポリシーリプレイを組み合わせ、継続的強化学習における崩壊的忘却を大幅に低減します。

ABSTRACT

Continual learning is the problem of learning new tasks or knowledge while protecting old knowledge and ideally generalizing from old experience to learn new tasks faster. Neural networks trained by stochastic gradient descent often degrade on old tasks when trained successively on new tasks with different data distributions. This phenomenon, referred to as catastrophic forgetting, is considered a major hurdle to learning with non-stationary data or sequences of new tasks, and prevents networks from continually accumulating knowledge and skills. We examine this issue in the context of reinforcement learning, in a setting where an agent is exposed to tasks in a sequence. Unlike most other work, we do not provide an explicit indication to the model of task boundaries, which is the most general circumstance for a learning agent exposed to continuous experience. While various methods to counteract catastrophic forgetting have recently been proposed, we explore a straightforward, general, and seemingly overlooked solution - that of using experience replay buffers for all past events - with a mixture of on- and off-policy learning, leveraging behavioral cloning. We show that this strategy can still learn new tasks quickly yet can substantially reduce catastrophic forgetting in both Atari and DMLab domains, even matching the performance of methods that require task identities. When buffer storage is constrained, we confirm that a simple mechanism for randomly discarding data allows a limited size buffer to perform almost as well as an unbounded one.

研究の動機と目的

  • 継続的RLにおける安定性-可塑性のトレードオフを動機づけ、解決する。
  • 逐次タスクに跨る崩壊的忘却を低減するリプレイベースのフレームワークを開発する。
  • 明示的なタスク境界やタスク同一性の仮定なしに学習を可能にする。

提案手法

  • 新規体験とリプレイ体験を混ぜたアクター-クリチック訓練と V-Trace のオフポリシー補正を用いる。
  • 現在のポリシーと過去の自分との間で行動模倣を適用し、リプレイ学習を安定化させる。
  • 可塑性のためのオンポリシー更新と安定性のためのオフポリシー更新を組み合わせ、リプレイデータに対する模倣損失を含める。
  • メモリが限られる場合にリプレイバッファを管理するため、 reservoir sampling を伴う IMPALA に似た分散アーキテクチャを採用する。

実験結果

リサーチクエスチョン

  • RQ1タスクが逐次提示される継続的RLにおいて、経験リプレイは崩壊的忘却を低減できるか?
  • RQ2オンポリシー学習とオフポリシーリプレイの混合(加えて行動模倣)により、可塑性を損なうことなく安定性が向上するか?
  • RQ3CLEAR の性能は、タスク認識ありの手法(例:EWC、Progress & Compress)や、別々のタスクまたは同時タスクでの学習と比較してどうか?
  • RQ4バッファサイズとオン/オフポリシーのバランスが学習ダイナミクスと忘却に与える影響は何か?

主な発見

  • CLEAR は循環的および逐次的タスク設定における崩壊的忘却を劇的に低減する。
  • CLEAR は、タスクを個別または同時に学習した場合と同等の累積パフォーマンスを達成し、忘却を実質的に排除する。
  • 行動模倣は安定性を高め、オフポリシーリプレイは新しいタスクを学習している間も過去のタスクの学習を支える。
  • 新規データとリプレイデータの50-50の組み合わせは安定性と可塑性の良いトレードオフを提供する。100%リプレイは新しいタスクの初期学習を損なう。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。