Skip to main content
QUICK REVIEW

[論文レビュー] Gradient Projection Memory for Continual Learning

Gobinda Saha, Garg, Isha|arXiv (Cornell University)|Mar 17, 2021
Domain Adaptation and Few-Shot Learning参考文献 33被引用数 27
ひとこと要約

学習済みコア勾配空間と直交する勾配方向で新しいタスクを学習することにより、過去のタスク知識を保持する固定容量ニューラルネットワーク手法を、Gradient Projection Memory(GPM)として格納する。

ABSTRACT

The ability to learn continually without forgetting the past tasks is a desired attribute for artificial learning systems. Existing approaches to enable such learning in artificial neural networks usually rely on network growth, importance based weight update or replay of old data from the memory. In contrast, we propose a novel approach where a neural network learns new tasks by taking gradient steps in the orthogonal direction to the gradient subspaces deemed important for the past tasks. We find the bases of these subspaces by analyzing network representations (activations) after learning each task with Singular Value Decomposition (SVD) in a single shot manner and store them in the memory as Gradient Projection Memory (GPM). With qualitative and quantitative analyses, we show that such orthogonal gradient descent induces minimum to no interference with the past tasks, thereby mitigates forgetting. We evaluate our algorithm on diverse image classification datasets with short and long sequences of tasks and report better or on-par performance compared to the state-of-the-art approaches.

研究の動機と目的

  • 過去のデータを保持せず、ネットワークを拡張せずに、継続学習における壊滅的忘却に対処する。
  • 表現と特異値分解(SVD)を用いて、過去のタスクからコア勾配サブスペースを特定する。
  • GPMにコンパクトな勾配基底を格納し、将来の勾配更新が過去のサブスペースと直交するように制約する。
  • 多様なデータセットとアーキテクチャに対するメモリ効率とスケーラビリティを示す。

提案手法

  • 最初のタスクの後、アクティベーションからレイヤーごとにコア勾配空間(CGS)を構築し、タスクのランダムサンプルに対してSVDを用いてCGS基底を抽出し、それをGPMに格納する。
  • 以降のタスクでは、新しいタスクの勾配をCGS上に射影し、それらの成分を減算して、過去のコアと直交する残差勾配空間(RGS)で更新を進める。
  • CGS基底を新しく直交的に更新しつつ、新しいタスク表現から共通方向を除去してCGSをコンパクトに保つ。
  • CGSと直交する勾配ステップでタスクを学習し、既に学習したタスクへの干渉を最小化する。
  • 固定容量のネットワークを使用する。レイヤーごとのCGSは逐次学習で成長するが、アーキテクチャによって制限される。
  • single-headおよびmulti-head設定を用いて、PMNIST、CIFAR-100、miniImageNet、5-Datasets のデータセット全体で評価する。

実験結果

リサーチクエスチョン

  • RQ1固定容量ネットワークで忘却を防ぐために、新しいタスクの勾配更新を過去のタスクの勾配と直交するように制約できるか。
  • RQ2生データや過去の勾配を保存せずに、過去のタスクから本質的な勾配サブスペース(CGS)を効率的に特定・保存するにはどうすればよいか。
  • RQ3GPMはデータプライバシーを保ちながら、さまざまなアーキテクチャや長いタスク列にわたるスケーラブルな継続学習を実現できるか。

主な発見

  • GPMは、 single-head設定でPMNISTの平均精度が最も高く(93.91% ±0.16)、忘却が最小である(BWT −0.03)。
  • split CIFAR-100では、GPMはメモリベースのベースラインを上回り、45%のメモリ削減で忘却ゼロ(BWT = 0.0)を達成。
  • split miniImageNet(ResNet18)では、60.41%の精度と0.0のBWTを達成し、忘却を避けつついくつかのベースラインを上回る。
  • 5-Datasets全体で、GPMは91.22% ±0.20%の精度とBWT ≈ −0.01を達成し、強力なベースラインと同等の性能を保ちながら大幅なメモリ節約を実現。
  • データリプレイや勾配の保存を必要とする方法と比較して、GPMは事前計算済みの勾配基底を用いてエポックあたりの学習を高速化し、メモリ使用量を低減する(PMNISTではGPM_Maxのおよそ69%程度など)。
  • GPMはより深いネットワークや長いタスク列にも対して競争力のある、あるいは優れた性能と低いメモリフットプリントを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。