[論文レビュー] PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations
PRDはPeer Rank(PR)とPeer Discussion(PD)を導入し、LLMベースの評価における偏りを緩和する。Vicuna80およびLFQAデータセット全体で人間の判断との一致度を高めている。
Nowadays, the quality of responses generated by different modern large language models (LLMs) is hard to evaluate and compare automatically. Recent studies suggest and predominantly use LLMs for reference-free evaluation of open-ended question answering. More specifically, they use the recognized "strongest" LLM as the evaluator, which conducts pairwise comparisons of candidate models' answers and provides a ranking score. However, this intuitive method has multiple problems, such as bringing in self-enhancement (favoring its own answers) and positional bias. We draw insights and lessons from the educational domain (Cho & MacArthur, 2011; Walsh, 2014) to improve LLM-based evaluations. Specifically, we propose (1) the peer rank (PR) algorithm that takes into account each peer LLM's pairwise preferences of all answer pairs, and outputs a final ranking of models; and (2) peer discussion (PD), where we prompt two LLMs to discuss and try to reach a mutual agreement on the preferences of two answers. We conduct experiments on two benchmark datasets. We find that our approaches achieve higher accuracy and align better with human judgments. Interestingly, PR can induce a relatively accurate self-ranking of models under the anonymous setting, where each model's name is unrevealed. Our work provides space to explore evaluating models that are hard to compare for humans.
研究の動機と目的
- LLMベースのモデル評価における偏り(自己過大評価、位置バイアス)を動機づけて対処する。
- 重み付けされたピアレビュ-を介してモデルランキングを算出し、反復収束を行うPeer Rankを導入する。
- LLMレビュアー間で詳細な対話ベースのペアワイズ判断を得るPeer Discussionを導入する。
- PRとPDがオープンエンドなタスクで人間の判断との相関をより強く生み出すことを示す。
提案手法
- 多くの対戦を横断するピアレビュアーの判断から重み付けモデルスコアを算出し、収束まで反復するPeer Rank (PR)を提案する(W_cr、score_k_c、α_k、正規化の式)。
- レビュアーの重み付け更新を用いて、細かな相対ランキングを得るためにエロ評価を使用する。
- 明示的な基準と役割情報を含むプロンプトを用いて、二人のLLMレビュアーが多回の対話を行い、ペアワイズの好みについて相互合意に達するPeer Discussion (PD)を実装する。
実験結果
リサーチクエスチョン
- RQ1PRは単一モデル評価よりもモデルランキングを人間の判断により近づけるか?
- RQ2PDは個々のレビュアー判断に対するペアワイズ比較の精度を向上させるか?
- RQ3重み付け方式と反復がPRの収束と偏り緩和にどう影響するか?
- RQ4PDAと人間との整合性を最大化するプロンプト戦略(明示的基準、役割)は何か?
- RQ5PRとPDは自尊自己過大評価や位置バイアスを自動化されたLLM評価で軽減しますか?
主な発見
- PRはVicuna80で人間の判断との整合性を向上させ、例レベルの精度を高める(例:All (Weighted)が1つの表で67.3%に達する)。
- PRはEloと勝率のランキングを人間のランキングと密接に一致させ、単一モデル評価者で観察される自己過大評価バイアスを低減する。
- 検討した構成の中で、All (Weighted) Eloと勝率の結果が人間の判断と最も強く相関する。
- PDプロンプトは明示的な基準と役割情報を含むことでLFQAにおけるピアディスカッション精度(PDA)を大幅に向上させる。最良のプロンプトは人間の注釈との相関をより高く達成。
- PRとPDは自我過大評価や位置バイアスなどの偏りを緩和し、匿名設定での自己ランキングを可能にする。
- PRには収束性が示され、より強力なレビュアーを強調し、弱いレビュアーを弱める重みを生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。