[論文レビュー] Modifying Memories in Transformer Models
この論文は、Transformer における知識改変タスクを定義し、未変更の事実の性能を保持しつつ、モデル重みに暗黙的に保持されている特定の事実を更新するための制約付きファインチューニングを提案し、さまざまなベースラインとメモリ拡張バリアントを評価している。
Large Transformer models have achieved impressive performance in many natural language tasks. In particular, Transformer based language models have been shown to have great capabilities in encoding factual knowledge in their vast amount of parameters. While the tasks of improving the memorization and generalization of Transformers have been widely studied, it is not well known how to make transformers forget specific old facts and memorize new ones. In this paper, we propose a new task of \emph{explicitly modifying specific factual knowledge in Transformer models while ensuring the model performance does not degrade on the unmodified facts}. This task is useful in many scenarios, such as updating stale knowledge, protecting privacy, and eliminating unintended biases stored in the models. We benchmarked several approaches that provide natural baseline performances on this task. This leads to the discovery of key components of a Transformer model that are especially effective for knowledge modifications. The work also provides insights into the role that different training phases (such as pretraining and fine-tuning) play towards memorization and knowledge modification.
研究の動機と目的
- Transformer のパラメータに格納された特定の事実知識を、既存の知識を劣化させることなく更新する問題を動機づけ、形式化する。
- 候補手法の知識改変能力を評価するベンチマークを作成する(T-REx と zsRE に基づく)
- ベースライン手法を調査し、大規模 Transformer モデルにおけるメモリ改変の効果的な戦略を特定する。
- 事前学習とファインチューニングといった異なる訓練段階およびモデル構成要素が、記憶と改変にどのように影響するかを分析する。
提案手法
- 知識改変を、更新対象とする事実のサブセットを対象とした制約付き最適化問題として定式化する。
- 未変更の事実への干渉を抑えるため、重み空間制約を用いた修正済み証拠に対する制約付きファインチューニングを提案する。
- 特定の Transformer ブロックのファインチューニングと、制約付き最適化を組み合わせて実験する(代替として l_infinity やフィッシャー情報を使用)。
- 複数のモデルに対して、制約付きファインチューニングと比較して、再訓練、修正済み事実でのファインチューニング、混合バッチを含むベースライン手法を評価する。
実験結果
リサーチクエスチョン
- RQ1Transformerモデルは、選択された事実知識を信頼性高く改変しつつ、未変更の事実の正確性を維持できるか?
- RQ2どのようなモデリング選択(どの層をファインチューニングするか、制約、訓練スキーム)が、改変の成功と忘却リスクの最適なバランスを実現するか?
- RQ3明示的メモリアーキテクチャ(FaE)は、事実を更新する能力の点で標準の Transformer モデルとどう異なるか?
- RQ4記憶と知識改変における事前学習とファインチューニングの役割は何か?
- RQ5修正する事実の数が増えるにつれて、制約付きファインチューニング手法はどれだけスケーラブルか?
主な発見
- 修正済み証拠に対する l_infinity 重み制約を伴う制約付きファインチューニングは、未変更の知識を保持しつつ事実を効果的に更新する。
- 最良の結果は、モデル全体を変更するよりも特定の層を変更することから得られることが多く、最適な層は修正する事実の数やモデルの状態に応じて変化し得る。
- FaE のシンボリックメモリだけのファインチューニングは不十分であり、パラメータファインチューニングを通じて暗黙知識を更新することが多くの設定で最良のトレードオフを生む。
- モデル間を通じて、制約付き FTM(制約付きで修正済み事実をファインチューニング)は、未変更の事実の保持において、制約なしファインチューニングや混合バッチ戦略より優れている。
- メモリ拡張 FaE は、修正済み事実の精度で競争力を持つが、全体の知識改変のトレードオフにおいて制約付き BERT-Large に一貫して勝てるわけではない。
- 本研究は、制約付き層単位の更新と選択的層のファインチューニングが知識改変に有効であることを示すベンチマークを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。