Skip to main content
QUICK REVIEW

[논문 리뷰] G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment

Yang Liu, Dan Iter|arXiv (Cornell University)|2023. 03. 29.
Topic Modeling인용 수 78
한 줄 요약

G-Eval은 형식 채우기 평가 프레임워크에서 사고 과정(CoT)을 사용하여 NLG 출력을 평가하는 GPT-4를 활용하며, 이전 지표보다 인간-상관도가 높아지고 LLM이 생성한 텍스트에 대한 편향이 드러난다.

ABSTRACT

The quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especially for tasks that require creativity and diversity. Recent studies suggest using large language models (LLMs) as reference-free metrics for NLG evaluation, which have the benefit of being applicable to new tasks that lack human references. However, these LLM-based evaluators still have lower human correspondence than medium-size neural evaluators. In this work, we present G-Eval, a framework of using large language models with chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of NLG outputs. We experiment with two generation tasks, text summarization and dialogue generation. We show that G-Eval with GPT-4 as the backbone model achieves a Spearman correlation of 0.514 with human on summarization task, outperforming all previous methods by a large margin. We also propose preliminary analysis on the behavior of LLM-based evaluators, and highlight the potential issue of LLM-based evaluators having a bias towards the LLM-generated texts. The code is at https://github.com/nlpyang/geval

연구 동기 및 목표

  • 참조 기반 지표와 저렴한 LLM 점수를 넘어서는 NLG의 자동 평가를 개선하도록 동기를 부여한다.
  • 사고 과정을 갖춘 대형 언어 모델을 활용하여 점수 산정을 안내하는 상세한 평가 단계를 생성한다.
  • 세밀하고 연속적인 품질 점수를 산출하는 형식 기반 채점 패러다임을 제공한다.
  • 요약 및 대화 작업 전반에서 LLM 기반 평가자의 인간 판단과의 상관관계를 평가한다.
  • LLM 평가자들이 LLM이 생성한 텍스트에 대해 가질 수 있는 편향과 자체 개선 피드백 루프에 대한 함의를 조사한다.

제안 방법

  • 작업 정의 프롬프트, 상세 평가 단계가 포함된 사고 과정(CoT), 그리고 LLM 출력물을 사용하는 채점 함수를 갖는 프롬프트 기반 평가자 아키텍처.
  • CoT 안내 평가: 프롬프트+기준으로 평가 단계를 생성한 다음 형식 채우기 프롬프트에서 후보 텍스트를 평가한다.
  • 확률 가중 채점: LLM의 출력 토큰 확률을 사용하여 미리 정의된 점수들의 가중 합으로 최종 점수를 계산하고, 연속 등급 부여를 가능하게 한다.
  • 디코딩 설정과 함께 백본 모델로 GPT-4(G-Eval-4) 및 GPT-3.5(G-Eval-3.5)를 활용하여 토큰 확률을 추정한다.
  • SummEval(요약) 및 Topical-Chat/QAGS(대화 및 망상) 벤치마크에 대한 메타 평가를 수행하여 인간 정렬성을 평가한다.

실험 결과

연구 질문

  • RQ1CoT를 갖춘 LLM 기반 평가자가 개방형 NLG 작업에서 인간 판단과 얼마나 잘 상관하는가?
  • RQ2형식 채우기 및 확률 가중 평가 프레임워크가 기존 지표에 비해 상관도와 정밀도를 향상시키는가?
  • RQ3모델 크기(GPT-4 대 GPT-3.5)와 사고 과정 안내가 요약 및 대화 작업의 평가 성능에 어떤 영향을 미치는가?
  • RQ4LLM 기반 평가자가 LLM이 생성한 텍스트에 편향을 나타내는가, 그리고 보상 신호로서의 사용에 대한 시사점은 무엇인가?

주요 결과

  • G-Eval-4는 SummEval에서 인간 판단과의 스피어만/켄달-Tau 상관관계가 이전 평가자들보다 높게 나타나며(예: 여러 지표에서 GPTScore 및 UniEval을 능가).
  • CoT 가이던스는 차원 전반의 평가 성능을 향상시키며, CoT 사용 G-Eval이 CoT가 없는 버전보다 더 높은 상관을 보인다.
  • 확률 정규화는 더 세밀하고 연속적인 점수를 제공하며 랭크 기반 상관관계(Spearman 등)를 직접 정수 점수보다 향상시킨다.
  • 더 큰 백본 모델(GPT-4)은 일반적으로 더 강한 인간 정합 신호와 견고성을 제공하지만 작업 차원에 따라 결과가 다르게 나타난다(예: Topical-Chat의 일부 차원은 민감도가 낮다).
  • LLM 기반 평가자는 LLM이 생성한 텍스트에 편향될 수 있으며, 모델 개선 보상으로 사용될 경우 자기 강화 위험을 시사한다.
  • G-Eval은 요약(SummEval) 및 대화(Topical-Chat, QAGS) 벤치마크에서 강력한 성능을 보이며 종종 최신 Baseline을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.