[論文レビュー] A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation
本論文は、LLM生成中の幻覚を検出・軽減するためのアクティブな二段階アプローチを提案します。未確定な概念を検索ベースの知識で検証し、出力を修正することにより、GPT-3.5での幻覚を47.5%から14.5%へと減らします。
Recently developed large language models have achieved remarkable success in generating fluent and coherent text. However, these models often tend to 'hallucinate' which critically hampers their reliability. In this work, we address this crucial problem and propose an approach that actively detects and mitigates hallucinations during the generation process. Specifically, we first identify the candidates of potential hallucination leveraging the model's logit output values, check their correctness through a validation procedure, mitigate the detected hallucinations, and then continue with the generation process. Through extensive experiments with GPT-3.5 (text-davinci-003) on the 'article generation task', we first demonstrate the individual efficacy of our detection and mitigation techniques. Specifically, the detection technique achieves a recall of ~88% and the mitigation technique successfully mitigates 57.6% of the correctly detected hallucinations. Importantly, our mitigation technique does not introduce new hallucinations even in the case of incorrectly detected hallucinations, i.e., false positives. Then, we show that the proposed active detection and mitigation approach successfully reduces the hallucinations of the GPT-3.5 model from 47.5% to 14.5% on average. We further demonstrate the effectiveness and wide applicability of our approach through additional studies including performance on different types of questions (multi-hop and false premise questions) and with another LLM from a different model family (Vicuna). In summary, our work contributes to improving the reliability and trustworthiness of large language models, a crucial step en route to enabling their widespread adoption in real-world applications.
研究の動機と目的
- 生成中の幻覚に対処することによって、大型言語モデルの信頼性と信用性を向上させる。
- 文ごとに動作する能動的で反復的な検出と軽減の枠組みを開発し、誤情報の伝播を抑制する。
- モデルのロジットを用いて不確かな概念を特定し、取得された知識で検証し、証拠を用いて幻覚を修復する。
提案手法
- 生成された各文の重要概念を、指示ベースのプロンプト(推奨)またはエンティティ/キーワード抽出を用いて特定する。
- 各概念に対して、概念ごとの最小トークン確率を用いて不確実性を算出する。
- 不確かな概念に対して検証質問(はい/いいえ)を作成し、ウェブ検索で関連知識を取得する(フォールバックとして自己問答も可)。
- 取得した知識を用いて検証質問に回答し、生成文と正確性を照合する。いかなる概念でも検証に失敗した場合は、証拠を用いて幻覚的内容を削除または置換して軽減する。
- 取得知識を用いて文を修復し、必要に応じて次の文の生成を導くための証拠を先頭に付けることで軽減する。
- GPT-3.5 (text-davinci-003) のテーマ横断で能動的検出と軽減を評価し、Vicunaおよび多段階/偽前提質問で汎用性を検証する。
実験結果
リサーチクエスチョン
- RQ1ロジットベースの不確実性信号は、概念レベルの幻覚を検出できるか?
- RQ2生成中の能動的検出と軽減は幻覚を減らし、次の文への伝播を防ぐか?
- RQ3異なるLLMファミリー(例:GPT-3.5、Vicuna)およびタスク種別(シングルホップ、マルチホップ、偽前提質問)で、アプローチの性能はどうなるか?
- RQ4偽陽性と全体的な出力品質に対する軽減の影響は何か?
主な発見
- 潜在的な幻覚を識別する検出リコールは約88%に達する。
- 軽減は、正しく検出された幻覚の57.6%に対応することに成功し、非幻覚ケースで幻覚を導入するのは3.06%にとどまる。
- 能動的アプローチは、GPT-3.5の出力における幻覚を平均で47.5%から14.5%へと低減する。
- 本手法は、モデルファミリ(GPT-3.5およびVicuna)およびタスク種別(シングルホップ、マルチホップ、偽前提)を横断して効果的である。
- 検出が偽陽性を出しても、軽減は新たな幻覚を導入しない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。