[論文レビュー] Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning
RetroPrompt はトレーニングデータからオープンブック知識ストアを構築し、検索を用いてプロンプト学習を拡張することで、few-shot/zero-shot の一般化を改善し、記憶依存を減らす。
Prompt learning approaches have made waves in natural language processing by inducing better few-shot performance while they still follow a parametric-based learning paradigm; the oblivion and rote memorization problems in learning may encounter unstable generalization issues. Specifically, vanilla prompt learning may struggle to utilize atypical instances by rote during fully-supervised training or overfit shallow patterns with low-shot data. To alleviate such limitations, we develop RetroPrompt with the motivation of decoupling knowledge from memorization to help the model strike a balance between generalization and memorization. In contrast with vanilla prompt learning, RetroPrompt constructs an open-book knowledge-store from training instances and implements a retrieval mechanism during the process of input, training and inference, thus equipping the model with the ability to retrieve related contexts from the training corpus as cues for enhancement. Extensive experiments demonstrate that RetroPrompt can obtain better performance in both few-shot and zero-shot settings. Besides, we further illustrate that our proposed RetroPrompt can yield better generalization abilities with new datasets. Detailed analysis of memorization indeed reveals RetroPrompt can reduce the reliance of language models on memorization; thus, improving generalization for downstream tasks. Code is available in https://github.com/zjunlp/PromptKG/tree/main/research/RetroPrompt.
研究の動機と目的
- 単なる暗記を超えたプロンプト学習の一般化向上を促す。
- トレーニングデータからオープンブック知識ストアを作成して知識と記憶を分離する。
- 入力・訓練・推論の各段階で検索駆動の補強を可能にし、学習と予測を導く。
提案手法
- h_hat_c が [MASK] トークンの埋め込みであるようなキー-バリュー対 (h_hat_c, v) として、トレーニング事例から密な検索ベースの知識ストアを構築する。
- 各クラスについて最近傍を m 個集約してニューラルデモンストレーションを取得し、それらの表現を入力に注入する。
- k 近傍法 (kNN) を用いて、kNN 推定確率に基づいて交差エントロピー損失の重みを再配分し、訓練を導く。
- 推論時に kNN 分布と PLM MLM 出力を補間して最終予測を生成する。
- 訓練中に非同期に知識ストアを更新して埋め込みをモデルの更新と整合させる。
- 強力なプロンプト学習ベースラインと比較し、構成要素の寄与を検証するアブレーションを実施する。
実験結果
リサーチクエスチョン
- RQ1標準的なプロンプトチューニングと比較して、検索強化プロンプト学習は few-shot および zero-shot の設定で性能を向上させますか?
- RQ2内部の、訓練データセットから派生した知識ストアは、知識と記憶を分離し、新しいドメイン/データセットへの一般化を改善しますか?
- RQ3ニューラルデモンストレーションと kNN 指導訓練は、記憶化とロングテール分布への頑健性にどのように影響しますか?
- RQ4訓練および推論中の知識ストアの更新/参照が性能に与える影響は何ですか?
主な発見
- RetroPrompt は few-shot および zero-shot 設定で、9つの NLU タスクにおいてベースラインよりも高い性能を達成します。
- オープンブック知識ストアからの検索は記憶への依存を減らし、完全に supervise されたロングテール分布を含む一般化を改善します。
- ニューラルデモンストレーションと kNN ガイド付き訓練は、特に Few-shot の状況で顕著な改善に寄与し、kNN-テスト自体は限定的な利得を提供します。
- Cross-domain 評価において、RetroPrompt はベースラインより強いクロスドメイン一般化を示します。
- 記憶化分析は、ファインチューニングおよび従来のプロンプトチューニングと比較して RetroPrompt が記憶化スコアを低減することを示します。
- アブレーション研究は、ニューラルデモンストレーション、kNN ガイド付き訓練、および kNN ベースの予測の各要素が性能向上に寄与することを確認しています。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。