[論文レビュー] Towards Continual Knowledge Learning of Language Models
この論文は継続的知識学習(CKL)を定式化し、継続的事前学習を介してLMの内部世界知識を更新し、InvariantLAMA、UpdatedLAMA、NewLAMAデータセットを含むCKLベンチマークを導入し、正則化、リハーサル、パラメータ拡張を含むCKL手法を分析して、パラメータ拡張が最も堅牢である一方でメモリ懸念があることを強調する。
Large Language Models (LMs) are known to encode world knowledge in their parameters as they pretrain on a vast amount of web corpus, which is often utilized for performing knowledge-dependent downstream tasks such as question answering, fact-checking, and open dialogue. In real-world scenarios, the world knowledge stored in the LMs can quickly become outdated as the world changes, but it is non-trivial to avoid catastrophic forgetting and reliably acquire new knowledge while preserving invariant knowledge. To push the community towards better maintenance of ever-changing LMs, we formulate a new continual learning (CL) problem called Continual Knowledge Learning (CKL). We construct a new benchmark and metric to quantify the retention of time-invariant world knowledge, the update of outdated knowledge, and the acquisition of new knowledge. We adopt applicable recent methods from literature to create several strong baselines. Through extensive experiments, we find that CKL exhibits unique challenges that are not addressed in previous CL setups, where parameter expansion is necessary to reliably retain and learn knowledge simultaneously. By highlighting the critical causes of knowledge forgetting, we show that CKL is a challenging and important problem that helps us better understand and train ever-changing LMs. The benchmark datasets, evaluation script, and baseline code to reproduce our results are available at https://github.com/joeljang/continual-knowledge-learning.
研究の動機と目的
- CKLを、時間的不変の知識を維持しつつ世界知識をリフレッシュする継続的な事前学習として定義する。
- 不変知識の保持、時代遅れ知識の更新、そして新しい知識の獲得を測定するベンチマークを構築する。
- 忘却と更新/獲得知識のトレードオフを捉える指標 FUAR を提案する。
- CKL手法をアーキテクチャ横断で評価し、従来の継続学習と比較してCKLに固有の課題を特定する。
提案手法
- CKLの定式化と3つのベンチマークデータセットを導入する:InvariantLAMA(時間的不変知識)、UpdatedLAMA(更新すべき時代遅れ知識)、NewLAMA(D1からの新しい知識)。
- New Text Corpus D1(CC-RecentNews)を構築し、知識評価のゼロショットLAMA探査フレームワークを定義する。
- 忘却/(更新+獲得)のトレードオフを定量化する FUAR 指標を提案する。
- エンコーダ-デコーダモデル(T5)で、正則化、リハーサル、パラメータ拡張(例:RecAdam、Mix-Review、LoRA、Kadapters、Modular)に分類されるベースラインCKL手法を評価する。
- 複数のCKLフェーズ、データの重複、学習率、CKL手法のアーキテクチャ間転移の影響を分析する。
実験結果
リサーチクエスチョン
- RQ1新しいコーパスでの継続的事前学習はLMの時間不変知識の保持にどう影響するか?
- RQ2CKLは時代遅れ情報の更新と新しい知識の獲得を、破壊的な忘却を招くことなくどれだけ効果的に行えるか?
- RQ3どのCKL手法が忘却と更新/獲得知識のバランスを最もうまく取れるか、複数のCKLフェーズでどのようにスケールするか?
主な発見
| Method | # of Params (Trainable / Total) | IL | UL | NL | NLE | FUAR |
|---|---|---|---|---|---|---|
| T5-Initial | 0M / 737M | 24.17 | 1.62 | 1.88 | 10.32 | - |
| T5-Vanilla | 737M / 737M | 12.89 | 10.17 | 3.77 | 17.75 | 1.08 |
| T5-RecAdam | 737M / 737M | 13.20 | 12.55 | 4.02 | 17.85 | 0.84 |
| T5-MixReview | 737M / 737M | 13.92 | 6.49 | 2.89 | 14.86 | 1.74 |
| T5-LoRA | 403M / 738M | 16.58 | 12.77 | 4.52 | 19.56 | 0.55 |
| T5-Kadapters (k=2) | 427M / 762M | 19.59 | 12.34 | 5.03 | 18.75 | 0.33 |
| T5-Kadapters (k=3) | 440M / 775M | 19.76 | 12.66 | 4.02 | 19.00 | 0.33 |
| T5-Modular | 438M / 773M | 20.29 | 12.66 | 4.65 | 19.24 | 0.28 |
- CKL手法は一般に不変知識の忘却を抑制し、更新/獲得をベースラインの継続的事前学習より改善する。
- パラメータ拡張手法(例:Kadapters、Modular)はUpdatedLAMAとNewLAMAで最良の結果を達成するが、パラメータの増加に伴いメモリ効率が低下する。
- リハーサル手法(例:MixReview)は、更新/獲得の利得が乏しいためUpdatedLAMAとNewLAMAで性能が劣る。
- CKLは同じデータへの繰り返し曝露とメモリ効率が忘却の主要因であることを示し、学習率と複数のCKLフェーズが性能に大きく影響する。
- CKLの結果はLMアーキテクチャ間で転移するが、手法とアーキテクチャの詳細により傾向は異なる。
- 本研究はCKLに特化したアーキテクチャと訓練戦略のベースラインスイートを提供し、従来のCLと比較して非自明な差があることを強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。