[論文レビュー] Do Language Models Know When They're Hallucinating References?
この論文は LM におけるオープン領域の幻覚的参照を研究し、外部データを用いずに幻覚を検出する直接的および間接的なブラックボックス・クエリを導入し、アンサンブル手法がモデル間で根拠付けの精度を改善することを示します。検索エンジンのグラウンドトゥルースを用いた定量的評価も提供します。
State-of-the-art language models (LMs) are notoriously susceptible to generating hallucinated information. Such inaccurate outputs not only undermine the reliability of these models but also limit their use and raise serious concerns about misinformation and propaganda. In this work, we focus on hallucinated book and article references and present them as the "model organism" of language model hallucination research, due to their frequent and easy-to-discern nature. We posit that if a language model cites a particular reference in its output, then it should ideally possess sufficient information about its authors and content, among other relevant details. Using this basic insight, we illustrate that one can identify hallucinated references without ever consulting any external resources, by asking a set of direct or indirect queries to the language model about the references. These queries can be considered as "consistency checks." Our findings highlight that while LMs, including GPT-4, often produce inconsistent author lists for hallucinated references, they also often accurately recall the authors of real references. In this sense, the LM can be said to "know" when it is hallucinating references. Furthermore, these findings show how hallucinated references can be dissected to shed light on their nature. Replication code and results can be found at https://github.com/microsoft/hallucinated-references.
研究の動機と目的
- 最先端の言語モデル全体で、幻覚的参照の出現頻度を評価する。
- 外部リソースを用いずに、生成された参照が根拠づけられているか幻覚かを判断するためのブラックボックス直接・間接クエリ手法を提案する。
- 検出性能を定量化し、モデルサイズ間でROC、FDRなどのトレードオフを分析する。
- 生成時の変更が幻覚を緩和できるかを探り、それらを減らすための指針を提供する。
提案手法
- トピックから候補参照タイトルを生成するため、温度パラメータを1に設定したLMを用いて各トピックにつき5つの候補を作成する。
- 各候補タイトルの正確な根拠を、Bing検索結果を用いて“根拠あり”または“幻覚”としてラベル付けする。
- 直接クエリ(3つのテンプレート)を適用し、j個のサンプルにわたって肯定的な補完を数えることで根拠付け確率を推定する。
- 間接クエリ(i>1 回の応答)を適用して複数のオープンエンドな回答を得て、重なりの推定値によって一貫性を測定する。
- ROC曲線とFDRを計算し、IQ、DQ、および IQ+DQ のアンサンブルを形成して根拠付け分類の精度を向上させる。

実験結果
リサーチクエスチョン
- RQ1外部データなしで、LM自体が生成された参照が根拠づけられているか幻覚かを信頼性をもって検出できるか?
- RQ2どのクエリ戦略(直接、間接、またはアンサンブル)が、モデルサイズの異なる場合で最も良い根拠付け検出を生み出すか?
- RQ3検出手法は、根拠づけられた参照を維持しつつ偽発見をどうやってトレードオフするか?
- RQ4生成時の調整(およびモデルサイズ)は、幻覚的参照の出現頻度に影響するか?
主な発見
| Model | Hallucination Rate (%) (H) |
|---|---|
| GPT-4 | 46.8% |
| ChatGPT | 59.6% |
| GPT-3 | 73.6% |
- 新しいモデルは根拠付け率が高く(幻覚が低い)一方で、GPT-4、ChatGPT、GPT-3全体においてなお顕著な幻覚を生み出す。
- 直接的および間接的クエリ手法は、測定可能なAUCで幻覚を分類でき、モデルサイズの増加とともに改善する(GPT-4 は IQ と DQ で最良)。
- GPT-3とChatGPTでは間接クエリが一般に直接クエリより上回り、GPT-4 は両方のアプローチの恩恵を受ける;IQ+DQ のアンサンブルがモデル間で最も高い性能を提供する。
- ウェブ検索(Bing)によるグラウンドトゥルースのラベリングは、根拠づけの実用的な代理指標であり、幻覚率の評価を支持する。
- 複数のアプローチ(IQ+DQ)のアンサンブルは、いずれかの単一手法より高い精度を発揮し、FDRと参照の保持とのトレードオフがある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。