[論文レビュー] Do Large Language Models Know about Facts?
The paper introduces Pinocchio, a 20K-question benchmark to evaluate how well large language models store and reason about factual knowledge across domains, tasks, and languages, using varied prompting strategies.
Large language models (LLMs) have recently driven striking performance improvements across a range of natural language processing tasks. The factual knowledge acquired during pretraining and instruction tuning can be useful in various downstream tasks, such as question answering, and language generation. Unlike conventional Knowledge Bases (KBs) that explicitly store factual knowledge, LLMs implicitly store facts in their parameters. Content generated by the LLMs can often exhibit inaccuracies or deviations from the truth, due to facts that can be incorrectly induced or become obsolete over time. To this end, we aim to comprehensively evaluate the extent and scope of factual knowledge within LLMs by designing the benchmark Pinocchio. Pinocchio contains 20K diverse factual questions that span different sources, timelines, domains, regions, and languages. Furthermore, we investigate whether LLMs are able to compose multiple facts, update factual knowledge temporally, reason over multiple pieces of facts, identify subtle factual differences, and resist adversarial examples. Extensive experiments on different sizes and types of LLMs show that existing LLMs still lack factual knowledge and suffer from various spurious correlations. We believe this is a critical bottleneck for realizing trustworthy artificial intelligence. The dataset Pinocchio and our codes will be publicly available.
研究の動機と目的
- Pretrainingおよびinstruction tuningからの事実知識をどの程度LLMsが記憶・推論できるかを評価する。
- 多様な事実カテゴリ(多面的、構造的、対立的、時系列、実世界、領域特化、多言語)を横断した性能を検討する。
- prompting戦略(ゼロショット、Few-shot、Chain-of-Thought有無)とモデルファミリー(事前学習済み、instruction-tuned、RLHF)を評価する。
- 多段推論、構造化データ処理、時点更新、対立耐性、多言語移行などの課題を調査する。
提案手法
- 7つの領域と言語から20,713問の多肢選択 factual questions を収集してPinocchioを構築する。
- 質問を7つのタスクカテゴリに整理して、異なる出典・時系列・領域・地域・言語を横断させる。
- 質問に3つのfactualityラベル(Yes/No/Not Sure Enough)を付記し、メタレビューアおよびアノテーター間合意のチェックで品質管理を行う。
- 複数の prompting 設定(Zero-shot、CoT付きZero-shot、Few-shot、CoT付きFew-shot)で、pretraining、instruction tuning、RLHFの10台のLLMを評価する。
- タスク・prompt・モデルサイズ・多言語設定ごとに性能を分析して、知識と推論のギャップを特定する。
- 多段推論、構造化データ処理、時点更新、対立耐性、ラベル粒度などの詳細分析を実施する。
実験結果
リサーチクエスチョン
- RQ1現在のLLMは多様なソースと言語で事実知識をどの程度蓄積しているのか。
- RQ2 prompting戦略とモデル整合性(instruction tuning、RLHF)が事実正確性と推論にどのように影響するのか。
- RQ3LLMは多段・構造化証拠、時限性のある事実、対立的入力、および多言語移行を扱えるのか。
- RQ4高リスク応用における事実知識と推論の主なボトルネックは何か。
主な発見
- instruction tuningとRLHFを用いたモデルは、未調整モデルより平均的に優れるが、依然として substantial factual gapsを示す。
- CoTを伴うFew-shot promptingは、特に調整済みモデルで事実正確性を一般的に向上させるが、モデルごとに利得は異なる。
- タスクがより多段・構造化データ推論・時点更新・多言語移行を必要とすると、性能が低下する。
- 時系列・実世界の事実問題は特に難しく、訓練データの更新不足を示唆している。
- 対立的に設計された問いはモデルの性能を大きく低下させることが多く、手動の adversarial edits が特に難しい。
- 自己一貫性・自己改善といった prompting戦略は一部の誤りを緩和できるが、普遍的ではない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。