[論文レビュー] Zero-Resource Hallucination Prevention for Large Language Models
本論文は Self-Familiarity を導入する。ゼロリソースの事前検知法で、概念抽出、概念推測、集約を通じて入力指示の概念へのモデルの馴染み度を評価することにより、幻覚を防ぐ。4つの LLM に対してベースラインを上回り、外部知識を必要としない、解釈可能で能動的な予防を提供する。
The prevalent use of large language models (LLMs) in various domains has drawn attention to the issue of "hallucination," which refers to instances where LLMs generate factually inaccurate or ungrounded information. Existing techniques for hallucination detection in language assistants rely on intricate fuzzy, specific free-language-based chain of thought (CoT) techniques or parameter-based methods that suffer from interpretability issues. Additionally, the methods that identify hallucinations post-generation could not prevent their occurrence and suffer from inconsistent performance due to the influence of the instruction format and model style. In this paper, we introduce a novel pre-detection self-evaluation technique, referred to as SELF-FAMILIARITY, which focuses on evaluating the model's familiarity with the concepts present in the input instruction and withholding the generation of response in case of unfamiliar concepts. This approach emulates the human ability to refrain from responding to unfamiliar topics, thus reducing hallucinations. We validate SELF-FAMILIARITY across four different large language models, demonstrating consistently superior performance compared to existing techniques. Our findings propose a significant shift towards preemptive strategies for hallucination mitigation in LLM assistants, promising improvements in reliability, applicability, and interpretability.
研究の動機と目的
- 外部知識やポスト検知を伴わず、オープンエンドな LLM アプリケーションにおける頑健で能動的な幻覚緩和を促進する。
- 未知の概念に対して応答を保留するゼロリソースの事前検知フレームワーク(Self-Familiarity)を導入する。
- 指示の馴染み度を評価する三段階プロセス(Concept Extraction、Concept Guessing、Aggregation)を開発する。
- 複数のドメインにわたる幻覚的な指示分類のデータセット Concept-7 を作成・活用し、手法を検証する。
提案手法
- Named Entity Recognition (NER) を用いて指示から概念を抽出する。
- 隣接する概念を結合して拡張概念を形成し、ノイズを減らすために一般的な語を除外する。
- 各概念について標準プロンプトで説明を生成し、概念語をマスクする。
- マスクされた説明から元の概念を推断し、拘束ビーム探索を用いて概念ごとの馴染み度スコアを取得する。
- 概念レベルのスコアを頻度ベースの重み付けと幾何減衰スキームを用いて指示レベルの馴染み度スコアに集約する。

実験結果
リサーチクエスチョン
- RQ1概念レベルの評価を含むゼロリソースの事前検知アプローチは、オープンエンドな LLM で幻覚リスクを低減できるか。
- RQ2概念抽出、説明ベースの推測、堅牢な集約をどう組み合わせて、信頼できる指示レベルの馴染み度信号を生成できるか。
- RQ3Self-Familiarity は外部知識に依存せず、異なるモデルアーキテクチャや指示スタイルに対して一般化するか。
主な発見
- Self-Familiarity は Concept-7 データセットにおいて、4つの大規模言語モデル全体でベースライン手法を一貫して上回る。
- 本手法はゴールドの説明と高い Pearson 相関を示し、人が理解する概念馴染み度と整合していることを示す。
- Abalation results show removing grouping, filtration, or ranking reduces performance, validating each component’s contribution.
- 人手による注釈評価は GPT-4 ベースの結果を裏付け、手法の頑健性と解釈性を確認している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。