Skip to main content
QUICK REVIEW

[논문 리뷰] FELM: Benchmarking Factuality Evaluation of Large Language Models

Shiqi Chen, Yiran Zhao|arXiv (Cornell University)|2023. 10. 01.
Topic Modeling인용 수 12
한 줄 요약

FELM은 다중 도메인 벤치마크를 제시하여 사실성 evaluators가 long-form LLM 출력에서 오류를 얼마나 잘 탐지하는지 평가하고, 세분화된 세그먼트 수준의 주석과 검색 및 추론 보조의 분석을 제공합니다.

ABSTRACT

Assessing factuality of text generated by large language models (LLMs) is an emerging yet crucial research area, aimed at alerting users to potential errors and guiding the development of more reliable LLMs. Nonetheless, the evaluators assessing factuality necessitate suitable evaluation themselves to gauge progress and foster advancements. This direction remains under-explored, resulting in substantial impediments to the progress of factuality evaluators. To mitigate this issue, we introduce a benchmark for Factuality Evaluation of large Language Models, referred to as felm. In this benchmark, we collect responses generated from LLMs and annotate factuality labels in a fine-grained manner. Contrary to previous studies that primarily concentrate on the factuality of world knowledge (e.g.~information from Wikipedia), felm focuses on factuality across diverse domains, spanning from world knowledge to math and reasoning. Our annotation is based on text segments, which can help pinpoint specific factual errors. The factuality annotations are further supplemented by predefined error types and reference links that either support or contradict the statement. In our experiments, we investigate the performance of several LLM-based factuality evaluators on felm, including both vanilla LLMs and those augmented with retrieval mechanisms and chain-of-thought processes. Our findings reveal that while retrieval aids factuality evaluation, current LLMs are far from satisfactory to faithfully detect factual errors.

연구 동기 및 목표

  • 세계 지식(world knowledge)을 넘어 다섯 도메인으로 사실성 평가를 확장: 세계 지식, 과학 및 기술, 수학, 글쓰기 및 추천, 그리고 추론.
  • 사실성에 관한 세분화된 세그먼트 수준 주석(사실성, 오류 유형, 이유 및 참고 링크)을 제공하여 평가자 개발을 돕습니다.
  • 검색 및 사고 흐름 기법을 이용한 vanilla 및 증강된 LLM 기반 사실성 평가자를 평가합니다.
  • 높은 품질의 설명 가능한 사실성 판단을 보장하기 위한 견고한 주석 및 검증 워크플로를 확립합니다.

제안 방법

  • 다섯 도메인에 걸친 다양한 소스로부터 프롬프트를 수집하고 ChatGPT로 제로샷 응답을 생성합니다.
  • 응답을 문장 기반 또는 GPT 보조 방법을 사용하여 세밀한 텍스트 구간으로 분할합니다.
  • 전문 주석가를 통해 각 구간에 사실성 레이블, 오류 유형, 이유 및 참조 링크를 주석합니다.
  • 다중 LLM 백본(Vicuna-33B, ChatGPT, GPT-4)에서 vanilla, 사고의 흐름(Cot), 참조 링크, 참조 문서 증강 평가자를 사용하여 구간 수준 및 응답 수준의 사실성을 평가합니다.
  • 구간 기반 평가 접근법과 주장 기반 평가 접근법을 비교하고 도메인별 성능 및 증강 효과를 분석합니다.

실험 결과

연구 질문

  • RQ1FELM의 다도메인, 세그먼트 수준 주석이 장문 LLM 출력의 사실 오류를 신뢰할 수 있게 포착할 수 있는가?
  • RQ2도메인 전반에 걸쳐 FELM에서 vanilla, 사고의 흐름, 검색 보강 평가자는 어떻게 성능을 발휘하는가?
  • RQ3다른 도메인과 모델에서 구간 기반 평가가 주장 기반 평가보다 더 나은 사실성 탐지를 제공하는가?
  • RQ4검색 링크나 문서가 LLM 평가자의 사실성 탐지에 측정 가능한 이점을 제공하는가?
  • RQ5현 시점의 LLM으로 사실성 평가의 한계와 도메인 의존적 도전과제는 무엇인가?

주요 결과

  • 사실 오류 탐지는 여전히 도전적이다; GPT-4 기반 평가자는 일부 설정에서 타보다 우수하지만 전반적으로 여전히 어려움을 겪는다.
  • 참조 링크와 문서를 모두 포함한 검색 보강 평가자는 F1 점수를 향상시키며, 참조 문서 증강이 눈에 띄는 이득을 제공한다.
  • 사고의 흐름 프롬프트는 GPT-4에 도움이 되지만 일관되게 GPT-3.5/ChatGPT에는 그렇지 않으며, 자체 일관성이 Cot 성능을 향상시킬 수 있다.
  • 세계 지식 및 추론 도메인에서 증강 및 Cot로 더 나은 이득을 보이지만, 추천/글쓰기 도메인은 긴 응답과 드문 오류로 인해 여전히 어렵다.
  • 외부 도구 없이 평가될 때 FELM에서 ChatGPT 탐지기가 종종 성능이 떨어지며, 평가에 외부 증거의 필요성을 강조한다.
  • Vicuna-33B 기반 탐지기는 세그먼트 수준에서 경쟁력 있는 성능을 보이나 균형 정확도가 거의 무작위에 근접한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.