[論文レビュー] GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework
GraphEvalはLLMの出力をナレッジグラフとして表現し、各トリプルの幻覚を検出するためにNLIを使用して検出精度を向上させ、説明を可能にする。さらに部分的な幻覚修正のためのGraphCorrectを導入。
Methods to evaluate Large Language Model (LLM) responses and detect inconsistencies, also known as hallucinations, with respect to the provided knowledge, are becoming increasingly important for LLM applications. Current metrics fall short in their ability to provide explainable decisions, systematically check all pieces of information in the response, and are often too computationally expensive to be used in practice. We present GraphEval: a hallucination evaluation framework based on representing information in Knowledge Graph (KG) structures. Our method identifies the specific triples in the KG that are prone to hallucinations and hence provides more insight into where in the response a hallucination has occurred, if at all, than previous methods. Furthermore, using our approach in conjunction with state-of-the-art natural language inference (NLI) models leads to an improvement in balanced accuracy on various hallucination benchmarks, compared to using the raw NLI models. Lastly, we explore the use of GraphEval for hallucination correction by leveraging the structure of the KG, a method we name GraphCorrect, and demonstrate that the majority of hallucinations can indeed be rectified.
研究の動機と目的
- 与えられた文脈に基づくLLM出力の幻覚検出の説明性の欠如に対処する。
- 標準的な評価モデルの前に、一貫性のないトリプルを識別するKGベースの前処理ステップを提案する。
- GraphEvalがベンチマークデータセットでバランス精度を改善することを示す。
- 元の文の品質を保ちつつ幻覚を修正するGraphCorrectの可能性を示す。
提案手法
- CoTおよびインコンテキスト学習を用いた prompting 戦略により、LLM出力から知識グラフを構築する。
- 各KGトリプルに対して、アウトオブボックスNLIモデルを適用し、根拠となる文脈に対する事実的一致性を評価する。
- いずれかのトリプルが0.5を超える不一致確率を示す場合、例を一貫性がないと分類する。
- 不一致のトリプルを返すことで説明可能性を提供し、既存の幻覚検出器の前処理ステップとして使用する。
- 必要に応じて、特定された幻覚をトリプルごとに修正して出力を再構成するGraphCorrectへ拡張する。

実験結果
リサーチクエスチョン
- RQ1KGベースの前処理は既存の幻覚検出モデルの精度を改善できるか?
- RQ2トリプルごとの根拠チェックはLLM出力内の幻覚の正確な位置をどの程度まで明らかにできるか?
- RQ3一貫性のないKGトリプルのみを狙って幻覚を修正(GraphCorrect)し、全体の文の忠実性を維持することは可能か?
主な発見
| データセット | モデル | バランス精度 |
|---|---|---|
| SummEval | HHEM | 66.0 |
| QAGS-C | HHEM | 63.5 |
| QAGS-X | HHEM | 75.5 |
| SummEval | HHEM + GraphEval | 71.5 |
| QAGS-C | HHEM + GraphEval | 72.2 |
| QAGS-X | HHEM + GraphEval | 75.2 |
| SummEval | TRUE | 61.3 |
| QAGS-C | TRUE | 61.8 |
| QAGS-X | TRUE | 72.6 |
| SummEval | TRUE + GraphEval | 72.4 |
| QAGS-C | TRUE + GraphEval | 71.7 |
| QAGS-X | TRUE + GraphEval | 73.9 |
| SummEval | TrueTeacher | 74.9 |
| QAGS-C | TrueTeacher | 75.6 |
| QAGS-X | TrueTeacher | 79.0 |
| SummEval | TrueTeacher + GraphEval | 79.2 |
| QAGS-C | TrueTeacher + GraphEval | 78.1 |
| QAGS-X | TrueTeacher + GraphEval | 79.6 |
- GraphEvalはSummEval、QAGS-C、QAGS-Xの各データセットでNLIモデルと組み合わせたとき、バランス精度を一貫して改善する(平均約6.2ポイントの向上)。
- このフレームワークは根拠文脈と矛盾する特定のKGトリプルを特定し、検出された幻覚の説明可能性を高める。
- GraphCorrectは大多数のベンチマークで直接プロンプティングのベースラインを上回り、特に長く構造的に複雑な出力で幻覚を修正する。
- KGベースの前処理は、KG構築のための1回のLLMパスを可能にし、その後は安価なNLIチェックを用いることで計算負荷を低減する。
- 出力長が短い場合(例:QAGS-X)、GraphEvalの利点は減少し、より長く複雑な出力での強さが際立つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。