[논문 리뷰] PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations
PRD는 LLM 기반 평가의 편향을 완화하기 위해 Peer Rank (PR)와 Peer Discussion (PD)를 도입하여 Vicuna80과 LFQA 데이터셋에서 인간 판단과의 정렬도를 높인다.
Nowadays, the quality of responses generated by different modern large language models (LLMs) is hard to evaluate and compare automatically. Recent studies suggest and predominantly use LLMs for reference-free evaluation of open-ended question answering. More specifically, they use the recognized "strongest" LLM as the evaluator, which conducts pairwise comparisons of candidate models' answers and provides a ranking score. However, this intuitive method has multiple problems, such as bringing in self-enhancement (favoring its own answers) and positional bias. We draw insights and lessons from the educational domain (Cho & MacArthur, 2011; Walsh, 2014) to improve LLM-based evaluations. Specifically, we propose (1) the peer rank (PR) algorithm that takes into account each peer LLM's pairwise preferences of all answer pairs, and outputs a final ranking of models; and (2) peer discussion (PD), where we prompt two LLMs to discuss and try to reach a mutual agreement on the preferences of two answers. We conduct experiments on two benchmark datasets. We find that our approaches achieve higher accuracy and align better with human judgments. Interestingly, PR can induce a relatively accurate self-ranking of models under the anonymous setting, where each model's name is unrevealed. Our work provides space to explore evaluating models that are hard to compare for humans.
연구 동기 및 목표
- LLM 기반 모델 평가에서 편향(자기향상, 위치 편향)을 동기 부여하고 해결한다.
- Peer Rank를 도입하여 가중 동료 리뷰를 통해 모델 순위를 계산하고 반복 수렴을 달성한다.
- Peer Discussion을 도입하여 LLM 리뷰어 간의 세부적이고 대화형의 쌍대 판단을 얻는다.
- PR과 PD가 개방형 태스크에서 인간 판단과의 상관관계를 더 크게 유도함을 입증한다.
제안 방법
- 다수의 배틀에 걸친 동료 평가자의 판단으로부터 가중 모델 점수를 계산하고 수렴될 때까지 반복하도록 Peer Rank (PR)를 제안한다( W_cr, score_k_c, α_k, 그리고 정규화에 대한 방정식 포함).
- 리뷰어 가중치를 이용한 업데이트로 Elo 등급을 사용하여 미세하게 상대적 순위를 얻는다.
- 동료 토론(PD)을 구현하여 두 LLM 리뷰어가 다회기 토론을 통해 쌍대 선호도에 대한 상호 합의에 도달하도록 하며, 명시적 기준과 역할 정보를 포함한 프롬프트를 사용한다.
실험 결과
연구 질문
- RQ1PR이 단일 모델 평가보다 인간 판단과 더 가까운 모델 순위를 생성하는가?
- RQ2PD가 개별 리뷰어 판단에 비해 쌍대 비교의 정확도를 향상시키는가?
- RQ3가중화 스킴과 반복이 PR의 수렴 및 편향 완화에 어떤 영향을 미치는가?
- RQ4어떤 프롬프트 전략(명시적 기준, 역할)이 PDA와 인간과의 정렬을 극대화하는가?
- RQ5PR과 PD가 자동화된 LLM 평가에서 자기향상 및 위치 편향을 줄이는가?
주요 결과
- PR은 Vicuna80에서 인간 판단과의 정렬이 개선되어 예시 수준의 정확도가 더 높아지며(예: All (Weighted)에서 67.3% 달성 등 한 표에서).
- PR은 Elo 및 승률 순위를 인간 순위와 밀접하게 일치시키며 단일 모델 평가에서 관찰된 자기향상 편향을 감소시킨다.
- All (Weighted) Elo 및 승률 결과가 테스트 configuration 중 인간 판단과 가장 근접하게 상관된다.
- PD 프롬프트에서 명시적 기준과 역할 정보가 포함되면 LFQA에서 동료 토론 정확도(PDA)가 크게 향상되며, 최적의 프롬프트가 인간 주석과의 상관을 더 높게 달성한다.
- PR과 PD는 자기향상 및 위치 편향과 같은 편향을 완화하고 익명 설정에서의 자기 순위를 가능하게 할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.