[論文レビュー] Continual Learning for Large Language Models: A Survey
大規模言語モデル(LLMs)の継続学習に関する総合的な調査で、マルチステージのフレームワーク(継続的事前学習、指示調整、アラインメント)を提案し、ベンチマーク、評価、課題、将来の方向性を概説する。
Large language models (LLMs) are not amenable to frequent re-training, due to high training costs arising from their massive scale. However, updates are necessary to endow LLMs with new skills and keep them up-to-date with rapidly evolving human knowledge. This paper surveys recent works on continual learning for LLMs. Due to the unique nature of LLMs, we catalog continue learning techniques in a novel multi-staged categorization scheme, involving continual pretraining, instruction tuning, and alignment. We contrast continual learning for LLMs with simpler adaptation methods used in smaller models, as well as with other enhancement strategies like retrieval-augmented generation and model editing. Moreover, informed by a discussion of benchmarks and evaluation, we identify several challenges and future work directions for this crucial task.
研究の動機と目的
- 進化する知識・価値観・言語パターンを反映するために、LLMsの継続的な更新の必要性を動機付ける。
- LLMsのためのマルチステージ継続学習フレームワークを提案する:継続的事前学習、継続的指示調整、継続的アラインメント。
- 段階ごとに既存の研究を整理・分類する。更新情報(事実、ドメイン、言語、タスク、価値観、嗜好)を含む。
- LLMsの継続学習を、リトリーバル強化型生成(RAG)やモデル編集と区別する。
- ベンチマーク開発、評価、および効率性における課題と将来の研究の方向性を特定する。)
提案手法
- LLMsにおける継続学習の新しいマルチステージ分類スキームを導入する(CPT、CIT、CA)。
- 段階間移行時の転移と忘却(クロスステージ忘却)に関する跨段階の視点を提供する。
- 各CPT/CIT/CAカテゴリ(事実、ドメイン、言語拡張;タスク/ドメイン/ツール;価値観/嗜好)における代表的研究を概説する。
- LLMs固有の目的を強調するため、継続学習をRAGとモデル編集と対比する。
- ベンチマークと評価指標(FWT、BWT、Avg ACC;GAD、IFD、SD)を要約し、評価の課題を論じる。
実験結果
リサーチクエスチョン
- RQ1LLMsの継続学習に適切な段階と情報更新は何か(CPT、CIT、CA)?
- RQ2段階移行を跨ぐ継続学習手法の性能はどうか、忘却を回避できるか(クロスステージ忘却)?
- RQ3タスク・ドメイン・価値観にわたるLLMsの継続学習を評価するのに適したベンチマークと評価指標は何か?
- RQ4LLMsの継続学習は、RAGやモデル編集などの適応法とどう違うか?
- RQ5効率的・安全・スケーラブルなLLMsの継続学習における主要な課題と今後の方向性は?
主な発見
- LLMsには、知識・指示遵守・価値観の整合性に対処する、CPT・CIT・CAからなる多段階の継続学習アプローチが必要である。
- 段階間の再開時にクロスステージ忘却が発生し、指示遵守能力や一般的能力に影響を及ぼす可能性がある。
- 更新情報の分類法(事実、ドメイン、言語、タスク、価値観、嗜好)は、CPT、CIT、CAのどこで更新が起きるかを明確にする。
- CPT・CIT・CAの標準ベンチマークについて議論があり、専用の継続的アラインメントベンチマークの欠如といったギャップが指摘される。
- 評価はFWT・BWT・Avg ACCなどの指標と、広範な影響を捉えるためのクロスステージデルタ指標(GAD、IFD、SD)に依存する。
- 本調査は、計算効率、社会的責任、自動継続学習、制御可能な忘却、履歴追跡を主要な将来方向として特定する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。