QUICK REVIEW

[論文レビュー] Achieving Forgetting Prevention and Knowledge Transfer in Continual Learning

Zixuan Ke, Bing Liu|arXiv (Cornell University)|Dec 5, 2021

Domain Adaptation and Few-Shot Learning被引用数 44

ひとこと要約

論文は、Capsuleと転送ルーティングを用いたBERTの継続学習プラグイン CTR を提案し、Task-CL設定における壊滅的忘却を防ぎ、NLPタスク間の知識転送を可能にします。単一対のCL-プラグインをBERTに挿入するだけで、CTRは複数のデータセットで強力なベースラインを上回ることを示します。

ABSTRACT

Continual learning (CL) learns a sequence of tasks incrementally with the goal of achieving two main objectives: overcoming catastrophic forgetting (CF) and encouraging knowledge transfer (KT) across tasks. However, most existing techniques focus only on overcoming CF and have no mechanism to encourage KT, and thus do not do well in KT. Although several papers have tried to deal with both CF and KT, our experiments show that they suffer from serious CF when the tasks do not have much shared knowledge. Another observation is that most current CL methods do not use pre-trained models, but it has been shown that such models can significantly improve the end task performance. For example, in natural language processing, fine-tuning a BERT-like pre-trained language model is one of the most effective approaches. However, for CL, this approach suffers from serious CF. An interesting question is how to make the best use of pre-trained models for CL. This paper proposes a novel model called CTR to solve these problems. Our experimental results demonstrate the effectiveness of CTR

研究の動機と目的

NLPタスクのTask-CL設定における壊滅的忘却（CF）の動機付けと対処。
関連するタスクを順次学習する際の前向きおよび後向き知識転送を可能にする。
継続学習において事前学習モデル（BERT）を、各タスクのファインチューニングなしに効果的に活用する。
BERTに挿入された単一対のCL-プラグインで機能するプラグインCLアーキテクチャ（CTR）を開発する。
複数のNLPタスクとデータセットで強力なベースラインに対して最先端の性能を示す。

提案手法

BERTのトランスフォーマー層に2つのCL-プラグインを挿入し、ベースモデルの微調整を回避しつつ転移学習の恩恵を受ける。
各CL-プラグインは、スキップ接続を伴う知識共有モジュール（KSM）とタスク特異モジュール（TSM）を含む。
KSMはタスクカプセル層、転送カプセル層、および転送ルーティングを用いて、転送ルーティング機構を介して共有可能な知識を識別・転送する。
TSMは、異なるタスク間で忘却を防ぐために微分可能なマスクを用いてタスク特異的な知識を保護する。
CL-プラグインはCapsule Network（CapsNet）風のアーキテクチャと転送ルーティングプロセスを用い、過去のタスクから転送可能な特徴を選択する。

実験結果

リサーチクエスチョン

RQ1CTRは、事前学習モデルの最小限の微調整でNLPタスクのシーケンス（Task-CL）を学習する際に壊滅的忘却を防げるか。
RQ2CTRは、共有知識の度合いが異なるタスク間の知識転送を、既存のCL手法と比較して改善するか。
RQ3BERTの異なる位置にCL-プラグインを挿入することが継続学習性能にどのような影響を与えるか。
RQ4CTRは、文書感情分類、側面感情分類、一般的なテキスト分類をカバーするデータセットで、強力なベースラインと比較してどう動作するか。
RQ5単一対のCL-プラグインで、さまざまなNLPタスクにおける忘却防止と知識転送の両立が可能か。

主な発見

モデル	ASC 計算精度	ASC MF1	DSC 計算精度(小)	DSC MF1 (小)	DSC 計算精度(全)	DSC MF1 (全)	20News 計算精度	20News MF1
CTR (forward)	87.89	80.25	83.75	82.55	89.86	89.16	95.63	95.62
CTR	89.47	83.62	84.34	83.29	89.31	88.75	95.25	95.23

CTRはASC、DSC（小データ・全データ）および20Newsタスク全体で、シーケンス平均の精度とMacro-F1の両方で全ベースラインを上回る。
微調整済みBERTおよびAdapter-BERTのベースラインと比較して、CTRは忘却回避と知識転送の点で優れた性能を示す。
転送ルーティングを用いたCL-プラグインは、従来の知識転送手法の動的ルーティングよりも有意な利益を提供し、ハイパーパラメータ調整の必要性を低減する。
CTRの性能はマルチタスク学習（MTL）の上限値に近づいており、CFを緩和しつつ効果的な知識共有を示している。
CTRはタスクマスクによる強力なメモリ保護を示し、類似タスク間の後向き転送と新規タスクへの前向き転送を堅牢に実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。