QUICK REVIEW

[논문 리뷰] Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

Pat Verga, Sebastian Hofstatter|arXiv (Cornell University)|2024. 04. 29.

Legal Education and Practice Innovations인용 수 9

한 줄 요약

본 논문은 Panel of LLM Evaluators (PoLL)를 도입한다. PoLL은 다양한 소형 모델들의 이질적 패널로 LLM 출력을 평가하며, PoLL이 단일 대형 평가자(GPT-4와 같은)보다 인간 판단과의 상관관계가 더 높고 상당히 비용이 저렴하다는 것을 보여준다.

ABSTRACT

As Large Language Models (LLMs) have become more advanced, they have outpaced our abilities to accurately evaluate their quality. Not only is finding data to adequately probe particular model properties difficult, but evaluating the correctness of a model's freeform generation alone is a challenge. To address this, many evaluations now rely on using LLMs themselves as judges to score the quality of outputs from other LLMs. Evaluations most commonly use a single large model like GPT4. While this method has grown in popularity, it is costly, has been shown to introduce intramodel bias, and in this work, we find that very large models are often unnecessary. We propose instead to evaluate models using a Panel of LLm evaluators (PoLL). Across three distinct judge settings and spanning six different datasets, we find that using a PoLL composed of a larger number of smaller models outperforms a single large judge, exhibits less intra-model bias due to its composition of disjoint model families, and does so while being over seven times less expensive.

연구 동기 및 목표

생성형 AI의 자유 형식 출력 이외의 신뢰할 수 있는 평가 필요성에 대한 동기 부여.
다양한 모델 계열에서 도출된 PoLL(Panel of LLM Evaluators)을 구성하여 출력을 점수화한다.
PoLL이 인간 판단과의 상관관계를 더 강하게 보여주면서 비용과 모델 간 편향을 감소시킴을 입증한다.
PoLL이 단일-탐색 QA, 다중-탐색 QA, 챗봇 유사 작업에서 어떻게 작동하는지 평가하고 프롬프트 민감도와 편향 함의를 분석한다.

제안 방법

LLM 평가자에 대한 판별자(judge), 참조 기반(reference-based) 및 페어-와이즈(pair-wise) 점수 설정을 정의한다.
세 가지 패밀리(Command R, Haiku, GPT-3.5)의 모델로 PoLL을 구성하고 단일 대형 평가자와 비교한다.
이진 QA 판단에는 최대 풀링(max pooling)을, 1–5 리커트(Likert) 축 척도 챗봇 판단에는 평균 풀링(average pooling)을 사용한다.
세 가지 설정(단일 히프(single-hop) QA, 다중 히프(multi-hop) QA, 챗봇 아레나)과 여섯 개 데이터셋에서 평가한다.
코헨의 카파(Cohen’s kappa) 및 인간 판단과의 상관(피어슨 상관, Kendall tau)을 분석한다.
판단 비용과 지연 시간를 평가하고 PoLL이 판단자로서 GPT-4보다 현저히 저렴하다는 것을 보여준다.

실험 결과

연구 질문

RQ1다양한 LLM 평가자(PoLL) 패널이 인간 판단과의 상관관계에서 단일 대형 평가자보다 더 나은 성과를 낼 수 있는가?
RQ2PoLL이 단일 모델 평가자에서 보이는 모델 내부 편향 및 변동성을 감소시키는가?
RQ3판단자로서 GPT-4를 사용하는 것에 비해 PoLL의 비용 및 지연 시간 영향은 어떠한가?
RQ4PoLL의 단일-히프 QA, 다중-히프 QA, 챗봇 평가 등 다양한 작업 및 데이터 세트에서의 견고성은 어떠한가?

주요 결과

PoLL은 단일-히프 QA 데이터셋에서 GPT-4 및 개별 평가자들보다 인간 판단과의 코헨의 카파(Cohen’s kappa) 상관이 더 높다.
PoLL은 특히 최상단 목록에서 챗봇 아레나(Chatbot Arena) 순위에 대해 인간 판단과의 가장 강한 상관을 달성한다.
GPT-4를 평가자로 사용할 때 높은 편차가 나타나며 특정 작업에서는 더 작고 다양한 모델이 이를 능가할 수 있다.
이질적 모델들로부터의 판단을 풀링(pooling)하면 모델 내부 점수 편향이 감소하고 개별 평가자보다 점수 분산이 작아진다.
PoLL은 판단자로서 GPT-4를 실행하는 것보다 7배 이상 저렴하고 일반적으로 병렬 처리 덕분에 더 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.