QUICK REVIEW

[論文レビュー] Understanding Catastrophic Forgetting and Remembering in Continual Learning with Optimal Relevance Mapping

Prakhar Kaushik, Alex Gain|arXiv (Cornell University)|Feb 22, 2021

Domain Adaptation and Few-Shot Learning被引用数 26

ひとこと要約

本論文は、Relevance Mapping Networks（RMN）を提案し、データリプレイなしで厳密な継続学習フレームワーク下で致命的忘却と致命的記憶の両方を最小化するタスク固有の重み関連マスクを学習し、データリプレイなしで最先端の結果を達成する。

ABSTRACT

Catastrophic forgetting in neural networks is a significant problem for continual learning. A majority of the current methods replay previous data during training, which violates the constraints of an ideal continual learning system. Additionally, current approaches that deal with forgetting ignore the problem of catastrophic remembering, i.e. the worsening ability to discriminate between data from different tasks. In our work, we introduce Relevance Mapping Networks (RMNs) which are inspired by the Optimal Overlap Hypothesis. The mappings reflects the relevance of the weights for the task at hand by assigning large weights to essential parameters. We show that RMNs learn an optimized representational overlap that overcomes the twin problem of catastrophic forgetting and remembering. Our approach achieves state-of-the-art performance across all common continual learning datasets, even significantly outperforming data replay methods while not violating the constraints for an ideal continual learning system. Moreover, RMNs retain the ability to detect data from new tasks in an unsupervised manner, thus proving their resilience against catastrophic remembering.

研究の動機と目的

厳密な継続学習における壊滅的記憶喪失(CF)と壊滅的思い出(CR)の双子の問題を動機づけ、形式化する。
CFとCRを最小化するための、データリプレイなしでタスク固有の重み関連マッピングを学習する方法を提案する。
単純〜複雑なアーキテクチャにまたがる標準CLベンチマークでSOTAの性能を実証する。
RMNが教師なしで新しいタスクを検出できることを示し、監視なしでCRに対処する。

提案手法

最適重な重複仮説に基づく継続学習のためのRelevance Mapping (RMN)を導入する。
標準の重みとともに訓練されるほぼバイナリのタスクベースの関連マスクをネットワーク重みに維持し、タスク固有のサブネットワークを作成する。
関連マッピングを、重みに初期化されたロジット-正規混合として表現し、学習可能なパラメータbetaで丸めて微分可能なマスクを得る。
ベイズ風の後方分解を用いて、タスク固有のマッピングが表現を分離し、有害な干渉を防ぐことを示す。
リプレイバッファやタスクごとに新しいネットワークを追加せず、厳格な継続学習制約の下で訓練する。
Permuted MNIST、Split MNIST、Sequential Omniglot、Split CIFAR-100（10タスクと20タスク）をさまざまなアーキテクチャ（MLP、CNN、ResNet18）で評価する。

実験結果

リサーチクエスチョン

RQ1厳格な継続学習制約の下で、データリプレイなしにRMNは壊滅的な忘却を緩和できるか。
RQ2教師なしのタスク検出を含む連続タスク全体で識別能力を維持することにより、RMNは壊滅的記憶を緩和できるか。
RQ3標準CLベンチマークとアーキテクチャ全体で、RMNの性能が最先端手法と比べてどうか。
RQ4RMNはタスクラベルなしの教師なし設定で新しいタスクを検出できるか。
RQ5提案されたベイズ的解釈は、RMNがタスク固有の後方分布を分解できる能力をどのように説明するか。

主な発見

RMNsは標準CLベンチマークでSOTAを達成し、リプレイベースの手法を上回る。
RMNsは大きな改善を示す：P-MNISTで+2.8%、S-MNISTで+0.5%、S-Omniglotで+3.9%、S-CIFAR100で+8.7%、RES-CIFARで+13.9%、従来のSOTAを上回る。
RMNsはリプレイバッファ、マルチヘッド、事前学習、事前学習モデルを必要とせず、優れたCF緩和を実現。
RMNsは教師なしの新規タスク/データ検出と教師なしタスク推定を実証し、CRに対処。
本手法は、単純なアーキテクチャ（MLP）と複雑なアーキテクチャ（ResNet18）および短期・長期継続学習タスクの両方で頑健な性能を発揮。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。