QUICK REVIEW

[論文レビュー] When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories

Alex Mallen, Akari Asai|arXiv (Cornell University)|Dec 20, 2022

Topic Modeling被引用数 34

ひとこと要約

この論文は、LMsがどれだけ事実知識を記憶しているか、人気度と関係タイプが記憶に影響する程度、retrieval-augmented memoriesとadaptive retrievalがオープンドメインQAの性能と効率をどのように改善できるかを分析します。

ABSTRACT

Despite their impressive performance on diverse tasks, large language models (LMs) still struggle with tasks requiring rich world knowledge, implying the limitations of relying solely on their parameters to encode a wealth of world knowledge. This paper aims to understand LMs' strengths and limitations in memorizing factual knowledge, by conducting large-scale knowledge probing experiments of 10 models and 4 augmentation methods on PopQA, our new open-domain QA dataset with 14k questions. We find that LMs struggle with less popular factual knowledge, and that scaling fails to appreciably improve memorization of factual knowledge in the long tail. We then show that retrieval-augmented LMs largely outperform orders of magnitude larger LMs, while unassisted LMs remain competitive in questions about high-popularity entities. Based on those findings, we devise a simple, yet effective, method for powerful and efficient retrieval-augmented LMs, which retrieves non-parametric memories only when necessary. Experimental results show that this significantly improves models' performance while reducing the inference costs.

研究の動機と目的

LMsの事実知識の記憶に影響を与える要因（主体の人気度と関係タイプ）を理解する。
パラメトリック知識を補完する非参数的メモリ（retrieval）の有効性を評価する。
パラメトリック記憶と非参数记忆を適応的検索で最適に組み合わせ、コストを削減できるかを調査する。
大規模オープンドメインQAベンチマーク PopQA と EntityQuestions における適応的検索を評価する。

提案手法

ファインチューニングなしで複数サイズの10のオープンドメインLMs（OPT, GPT-Neo, GPT-3）を評価する。
WikidataとWikipediaの人気度に基づく長尾エンティティから派生した14k-questionのオープンドメインQAデータセット PopQA を導入する。
主体の人気度と関係タイプに対する memorization をモデル間で分析する。
BM25、Contriever、GenReadを用いて非参数的 memories でプロンプトを拡張する retrieval-augmented LMs をテストする。
人気度閾値に基づいて関係タイプごとに選択的に retrieval する adaptive retrieval が性能と効率を最適化できるかを評価する。
精度、待機時間、APIコストを含む性能と効率性の指標を報告する。

実験結果

リサーチクエスチョン

RQ1RQ1: LMs はどれくらいの事実知識を記憶しており、記憶にはどのような要因が影響するか？
RQ2RQ2: 非参数的 memories はパラメトリック memories の制約をどの程度緩和できるか？
RQ3RQ3: 非参数记忆とパラメトリック memories を適応的に組み合わせるシステムを構築できるか？

主な発見

Memorization はモデル間で主体エンティティの人気度と相関しており、大型モデルはより強い相関を示す。
スケーリングは主に人気知識の記憶を改善し、長尾の質問では有意な利益を生み出すが、長尾以外の質問には限定的な利得。
retrieval augmentation は長尾のパフォーマンスを大幅に向上させ、特に人気の低いエンティティで効果的である。ただし、 retrieved context がモデルを誤誘導する場合は人気エンティティでのパフォーマンスを低下させることがある。
非参数的メモリ（BM25/Contriever）は人気の低い質問で独立したLMよりも優れており、PopQA では Contriever が一般により良い結果を示す。GenRead は大きなモデルでは多少役立つが、小さなモデルでは効果が低い。
Adaptive Retrieval — 関係タイプごとの人気閾値に基づいて必要なときだけ retrieval する — は常時取得戦略より優れており、GPT-3 davinci-003 を用いた GenRead と Contriever で PopQA において最大 46.5% の正解率を達成。
Adaptive Retrieval は推論コストと待機時間を削減し、大型LMで最大約9%の待機時間削減、GPT-3 のシナリオではAPIコストを最大50%削減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。