Skip to main content
QUICK REVIEW

[논문 리뷰] GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

Hannah Sansford, Nicholas Richardson|arXiv (Cornell University)|2024. 07. 15.
Plant-based Medicinal Research인용 수 6
한 줄 요약

GraphEval은 LLM 출력을 지식 그래프로 표현하고 각 트리플의 망상 여부를 검출하기 위해 NLI를 사용하여 검출 정확도를 높이고 설명 가능성을 가능하게 한다. 또한 부분 망상 수정용 GraphCorrect를 도입한다.

ABSTRACT

Methods to evaluate Large Language Model (LLM) responses and detect inconsistencies, also known as hallucinations, with respect to the provided knowledge, are becoming increasingly important for LLM applications. Current metrics fall short in their ability to provide explainable decisions, systematically check all pieces of information in the response, and are often too computationally expensive to be used in practice. We present GraphEval: a hallucination evaluation framework based on representing information in Knowledge Graph (KG) structures. Our method identifies the specific triples in the KG that are prone to hallucinations and hence provides more insight into where in the response a hallucination has occurred, if at all, than previous methods. Furthermore, using our approach in conjunction with state-of-the-art natural language inference (NLI) models leads to an improvement in balanced accuracy on various hallucination benchmarks, compared to using the raw NLI models. Lastly, we explore the use of GraphEval for hallucination correction by leveraging the structure of the KG, a method we name GraphCorrect, and demonstrate that the majority of hallucinations can indeed be rectified.

연구 동기 및 목표

  • 주어진 맥락에 근거한 LLM 출력의 망상 탐지에서 설명가능성의 부족 문제를 해결한다.
  • 표준 평가 모델보다 먼저 비일관적 트리플을 식별하는 KG 기반 전처리 단계를 제안한다.
  • 그래프Eval이 벤치마크 데이터셋에서 균형 정확도를 개선함을 보여준다.
  • 그래프Correct의 망상 수정 가능성을 입증하고 원문 품질을 보존한다.

제안 방법

  • LLM 출력에서 prompting 전략(CoT 및 맥락 학습)을 통해 지식 그래프를 구성한다.
  • 각 KG 트리플마다 표준 grounding 맥락에 대한 사실적 일치 여부를 평가하기 위해 즉시 사용 가능한 NLI 모델을 적용한다.
  • 어떤 트리플의 불일치 가능성이 0.5를 초과하면 예시를 불일치로 분류한다.
  • 설명 가능성을 제공하기 위해 불일치 트리플을 반환한다; 기존 망상 탐지기의 전처리 단계로 사용한다.
  • 선택적으로 각 트리플의 불일치를 교정하고 재구성하여 GraphCorrect로 확장한다.
Figure 1: A visualisation of the GraphEval approach. First, the LLM output is fed into the KG construction prompt to produce the KG depicted on the right. Next, each individual triple in the KG is fed into an out-of-the-box hallucination detection method, such as an NLI model, and compared to the pr
Figure 1: A visualisation of the GraphEval approach. First, the LLM output is fed into the KG construction prompt to produce the KG depicted on the right. Next, each individual triple in the KG is fed into an out-of-the-box hallucination detection method, such as an NLI model, and compared to the pr

실험 결과

연구 질문

  • RQ1KG 기반 전처리가 기존 망상 탐지 모델의 정확도를 향상시킬 수 있는가?
  • RQ2트리플당 grounding 확인이 LLM 출력 내 망상이 정확히 어디에 위치하는지 밝힐 수 있는가?
  • RQ3전체 텍스트 충실도를 유지하면서 불일치 KG 트리플만 교정하는(GraphCorrect) 것이 가능한가?

주요 결과

DatasetModelBalanced Accuracy
SummEvalHHEM66.0
QAGS-CHHEM63.5
QAGS-XHHEM75.5
SummEvalHHEM + GraphEval71.5
QAGS-CHHEM + GraphEval72.2
QAGS-XHHEM + GraphEval75.2
SummEvalTRUE61.3
QAGS-CTRUE61.8
QAGS-XTRUE72.6
SummEvalTRUE + GraphEval72.4
QAGS-CTRUE + GraphEval71.7
QAGS-XTRUE + GraphEval73.9
SummEvalTrueTeacher74.9
QAGS-CTrueTeacher75.6
QAGS-XTrueTeacher79.0
SummEvalTrueTeacher + GraphEval79.2
QAGS-CTrueTeacher + GraphEval78.1
QAGS-XTrueTeacher + GraphEval79.6
  • GraphEval은 NLI 모델과 함께 SummEval, QAGS-C, QAGS-X에서 균형 정확도를 지속적으로 향상시키며 평균 약 6.2포인트의 개선을 보인다.
  • 프레임워크가 grounding 맥락과 불일치하는 특정 KG 트리플을 식별하여 검출된 망상에 대한 설명 가능성을 향상시킨다.
  • GraphCorrect는 대부분의 벤치마크에서 직접 프롬팅 기반_baseline보다 망상을 교정하는 데 우수하며, 특히 더 길고 구조적으로 복잡한 출력에서 두드러진다.
  • KG 기반 전처리는 KG 구성을 위한 단일 LLM 패스와 이후 더 저렴한 NLI 확인을 사용함으로써 계산 부담을 줄인다.
  • 출력 길이가 짧은 경우(QAGS-X), GraphEval의 이점이 감소하지만 더 길고 복잡한 출력에서 강점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.