[論文レビュー] Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation
本論文は、large language modelsが自らの事実知識の境界をどのように認識しているか、およびretrieval augmentationがオープン・ドメインQAの性能と自己評価にどのように影響するかを分析し、自己評価における過信と、retrievalが判断を実際の正確さと合わせるのに役立つことを示している。
Large language models (LLMs) have shown impressive prowess in solving a wide range of tasks with world knowledge. However, it remains unclear how well LLMs are able to perceive their factual knowledge boundaries, particularly under retrieval augmentation settings. In this study, we present the first analysis on the factual knowledge boundaries of LLMs and how retrieval augmentation affects LLMs on open-domain question answering (QA), with a bunch of important findings. Specifically, we focus on three research questions and analyze them by examining QA, priori judgement and posteriori judgement capabilities of LLMs. We show evidence that LLMs possess unwavering confidence in their knowledge and cannot handle the conflict between internal and external knowledge well. Furthermore, retrieval augmentation proves to be an effective approach in enhancing LLMs' awareness of knowledge boundaries. We further conduct thorough experiments to examine how different factors affect LLMs and propose a simple method to dynamically utilize supporting documents with our judgement strategy. Additionally, we find that the relevance between the supporting documents and the questions significantly impacts LLMs' QA and judgemental capabilities. The code to reproduce this work is available at https://github.com/RUCAIBox/LLM-Knowledge-Boundary.
研究の動機と目的
- LLMs が自らの事実知識の境界を認識する程度(priori および posteriori の判断)を評価する。
- retrieval augmentation が LLM の QA パフォーマンスと境界認識に与える影響を評価する。
- Supporting documents の異なる特性が LLM の依存度と正確さに与える影響を検討する。
提案手法
- 2 つの prompting regime を用いる: QA prompting と judgemental prompting(priori および posteriori)。
- ノーマル(retrieval なし) vs retrieval-augmented settings を、dense、sparse、および mixed retriever を含む ChatGPT generated documents を含めて比較する。
- Natural Questions、TriviaQA、HotpotQA を用いて QA は EM と F1 で評価する;Give-up rate、Right/G、Right/¬G、Eval-Right、Eval-Acc を judgement に導入する。
- 各質問につき retrieved ソースの supporting documents を ten 枚付与し、golden、highly-related、weakly-related、random の文書品質の効果を分析する。
- GPT-3.5-turbo (ChatGPT) および text-davinci-003 を OpenAI API 経由で用い、 judgement と QA のタスク用にプロンプトとパーシング規則を整理する。
実験結果
リサーチクエスチョン
- RQ1LLMs は自らの事実知識の境界をどの程度認識できるか?
- RQ2retrieval augmentation は LLMs にどのような影響を与えるか?
- RQ3異なる特徴を持つ supporting documents は LLMs にどのような影響を与えるか?
主な発見
- LLMs はオープン・ドメイン QA において過信を示し、事実知識の境界を正確に認識していない。
- Retrieval augmentation は LLMs の知識境界の認識能力を改善し、判断の正確さ(priori および posteriori)を高める。
- LLMs は提供された supporting documents に過度に依存する傾向があり、文書品質が高いほど QA のパフォーマンスと自信が増す。
- Dense および sparse retrieval、特に組み合わせた場合は、各データセットで一般に最良の retrieval-augmented QA パフォーマンスを示す。
- ChatGPT と Davinci003 は retrieval augmentation が影響を与える方法が異なり、Davinci003 は retrieval の恩恵を受けやすい一方、ChatGPT はプロンプト長さと文書ノイズに対して敏感である。
- supporting documents の数を増やすと、文書品質依存的な方法で Give-up rate と Eval-Acc に影響を与え、一定の点までパフォーマンスを向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。