[논문 리뷰] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
본 연구는 강력한 LLM이 챗봇의 판단자로 기능할 수 있는지 여부를 MT-bench와 Chatbot Arena를 사용해 LLM 기반 판단과 인간의 선호를 비교함으로써 평가하며, GPT-4가 인간 동의율 이상의 80%를 초과하는 수준으로 인간과의 일치를 보인다.
Evaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these models on more open-ended questions. We examine the usage and limitations of LLM-as-a-judge, including position, verbosity, and self-enhancement biases, as well as limited reasoning ability, and propose solutions to mitigate some of them. We then verify the agreement between LLM judges and human preferences by introducing two benchmarks: MT-bench, a multi-turn question set; and Chatbot Arena, a crowdsourced battle platform. Our results reveal that strong LLM judges like GPT-4 can match both controlled and crowdsourced human preferences well, achieving over 80% agreement, the same level of agreement between humans. Hence, LLM-as-a-judge is a scalable and explainable way to approximate human preferences, which are otherwise very expensive to obtain. Additionally, we show our benchmark and traditional benchmarks complement each other by evaluating several variants of LLaMA and Vicuna. The MT-bench questions, 3K expert votes, and 30K conversations with human preferences are publicly available at https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge.
연구 동기 및 목표
- 전통적인 능력 벤치마크를 넘어 LLM 기반 챗봇 평가의 필요성을 동기화한다.
- 개방형의 다회 대화에서 인간 선호도를 추정하기 위한 판사 역할로 LLM을 제안한다.
- 인간에 맞춘 평가를 측정하기 위한 두 벤치마크(MT-bench와 Chatbot Arena)를 만든다.
- LLM 판사의 편향과 한계를 분석하고 완화 전략을 제시한다.
- 데이터 세트를 공개하고 능력 벤치마크와 선호 벤치마크를 결합한 하이브리드 평가 프레이크워크를 촉진한다.
제안 방법
- 쌍대 비교, 단일 응답 채점, 참조 가이던스 채점의 세 가지 LLM-판사 변형을 도입한다.
- 포지션 편향, 말투/장황 편향, 자기 향상 편향 등을 포함한 편향을 조사하고 완화 기법을 평가한다.
- MT-bench(80개의 다회 질문, 3K 전문가 표)와 Chatbot Arena(30K 크라우드 표)를 사용하여 LLM 판사를 인간 선호도와 비교한다.
- 여러 설정에서 MT-bench와 Arena 데이터셋에서 GPT-4 판사와 인간 간의 일치를 평가한다.
- 자리 교환, few-shot 판사, 사고의 연쇄(chain-of-thought) 프롬프트, 참조 가이드 판단, 판사 미세조정(fine-tuning) 등의 개선을 탐구한다.
- MT-bench 질문, 전문가 표, 그리고 Arena 대화의 데이터 공개를 제공한다.
실험 결과
연구 질문
- RQ1강력한 LLM(예: GPT-4)이 개방형의 다회 대화 상호작용에 대한 인간 선호를 재현할 수 있는가?
- RQ2LLM 기반 판단에 영향을 주는 편향은 무엇이며(포지션, 장황, 자기 향상), 이를 어떻게 완화할 수 있는가?
- RQ3제어된(MT-bench) 및 크라우드소싱(Chatbot Arena) 설정에서 LLM 판사가 인간 평가자와 일치하는가?
- RQ4참조 가이드, 사고의 연쇄, 또는 few-shot 프롬프팅이 판단 신뢰도에 주는 추가 가치는 무엇인가?
- RQ5LLM-판사를 사용할 때 모델 변형과 학습 데이터가 평가 결과에 어떤 영향을 미치는가?
주요 결과
- GPT-4를 판단자로 두었을 때 MT-bench에서 인간 선호도와의 일치가 80%를 넘고 인간-간 일치 수준과 일치한다.
- GPT-4 단일 응답 채점은 쌍대 판단 및 인간과 잘 맞으며 확장성을 제공한다.
- 포지션 편향과 장황 편향이 존재하지만 완화될 수 있다; 일부 편향은 모델 의존적이다(예: Claude-v1의 이름 편향).
- 참조 가이드 및 사고의 연쇄 프롬프트는 채점의 수학/추론 실패를 크게 감소시킨다.
- MT-bench와 Chatbot Arena는 표준 벤치마크를 보완한다; GPT-4 판단자의 성능은 모델 쌍과 범주 전반에서 인간 선호를 추적한다.
- 고품질 대화 데이터로의 미세조정은 MMLU/진실성 QA와 MT-bench 결과를 개선할 수 있지만, 단일 벤치마크가 모델 품질을 완전히 결정하지는 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.