Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference

Matthew Riemer, Ignacio Cases|arXiv (Cornell University)|Oct 28, 2018
Domain Adaptation and Few-Shot Learning被引用数 345
ひとこと要約

本論文は Meta-Experience Replay (MER) を提案しており、経験リプレイを最適化ベースのメタ学習と統合して、教師あり学習と強化学習の連続学習において前方転移を最大化し干渉を最小化する方法であり、タスクラベルを必要としない。

ABSTRACT

Lack of performance when it comes to continual learning over non-stationary distributions of data remains a major challenge in scaling neural network learning to more human realistic settings. In this work we propose a new conceptualization of the continual learning problem in terms of a temporally symmetric trade-off between transfer and interference that can be optimized by enforcing gradient alignment across examples. We then propose a new algorithm, Meta-Experience Replay (MER), that directly exploits this view by combining experience replay with optimization based meta-learning. This method learns parameters that make interference based on future gradients less likely and transfer based on future gradients more likely. We conduct experiments across continual lifelong supervised learning benchmarks and non-stationary reinforcement learning environments demonstrating that our approach consistently outperforms recently proposed baselines for continual learning. Our experiments show that the gap between the performance of MER and baseline algorithms grows both as the environment gets more non-stationary and as the fraction of the total experiences stored gets smaller.

研究の動機と目的

  • 前方および後方の時間方向に跨る、連続学習における転移と干渉の時間対称的な見方を動機づける。
  • 転移を促進し干渉を減らすよう勾配ダイナミクスを調整する学習を行うメタ学習ベースのアルゴリズムを開発する。
  • 非定常なストリームにおいて、経験リプレイを活用して定常データ分布を近似する。
  • 多様な連続学習ベンチマークと非定常な RL 環境で MER を評価し、堅牢な性能向上を示す。

提案手法

  • 転移と干渉を、例の対の勾配整合性の観点で定義する。
  • ランダムなデータポイント間の勾配点積を高くすることを奨励する目的関数を提案し、共有に有用な表現を促進する(方程式4)。
  • 経験リプレイを最適化ベースのメタ学習と統合して、メモリサンプル上の Reptile 風の目的を最適化する MER(Algorithm 1)を作成する。
  • 貯蔵サンプリングを使用して、見られたデータの定常分布を近似するメモリバッファを維持する(Appendix F)。
  • 二階微分計算を回避してオンラインの連続学習を可能にするため、一次元のメタ学習(Reptile)を採用する(方程式6–7)。

実験結果

リサーチクエスチョン

  • RQ1非定常な分布上で、時間的に対称な転移–干渉フレームワークは連続学習を改善できるのか?
  • RQ2Meta-Experience Replay (MER) は過去と未来のデータ間で前方転移を最大化しつつ干渉を最小化する効果があるのか?
  • RQ3MER は監視付き連続生涯学習ベンチマークにおいて、既存のベースライン(EWC、GEM、Online など)とどのように比較されるのか?
  • RQ4MER は限られたメモリ(小さなバッファ)およびますます非定常になる強化学習環境に対して頑健か?

主な発見

  • MER は、教師付き連続 lifelong 学習ベンチマーク MNIST Rotations および MNIST Permutations で、GEM、EWC、Online などの強力なベースラインを一貫して上回る。
  • MER は、転移と干渉のバランスをより良く保ちつつ、特に非定常性が高まると retained accuracy が高くなる。
  • MER は、記憶バッファが小さい場合でも GEM を凌駕する成果を示し、GEM がはるかに大きなバッファを使用している場合にも勝る。
  • より非定常な設定(Many Permutations、Omniglot)では、MER は保持と学習速度をベースラインと比較して大幅に改善。
  • 非定常な Catcher と Flappy Bird での DQN を用いた連続強化学習テストでは、MER は忘却を減らし、経験リプレイ付きの標準DQNと比較してタスク間の性能を改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。