[論文レビュー] Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models
論文は Panel of LLM Evaluators (PoLL) を導入し、複数の小規模モデルからなる異種パネルを用いて LLM の出力を評価する。PoLL は 単一の大規模審査者(GPT-4 のような)より人間の判断と相関しやすく、かつはるかに安価であることを示す。
As Large Language Models (LLMs) have become more advanced, they have outpaced our abilities to accurately evaluate their quality. Not only is finding data to adequately probe particular model properties difficult, but evaluating the correctness of a model's freeform generation alone is a challenge. To address this, many evaluations now rely on using LLMs themselves as judges to score the quality of outputs from other LLMs. Evaluations most commonly use a single large model like GPT4. While this method has grown in popularity, it is costly, has been shown to introduce intramodel bias, and in this work, we find that very large models are often unnecessary. We propose instead to evaluate models using a Panel of LLm evaluators (PoLL). Across three distinct judge settings and spanning six different datasets, we find that using a PoLL composed of a larger number of smaller models outperforms a single large judge, exhibits less intra-model bias due to its composition of disjoint model families, and does so while being over seven times less expensive.
研究の動機と目的
- 自由形式の出力を超える生成系AIの信頼できる評価の必要性を動機づける。
- 多様なモデル系統から成る PoLL の提案と出力の評価。
- PoLL が人間の判断との相関をより強く示し、コストとモデル内バイアスを低減することを示す。
- PoLL の QA およびチャットボット型タスクでの性能を評価し、プロンプト感度とバイアス影響を分析。
提案手法
- LLM 評価者の judge, reference-based, そしてペアワイズ採点設定を定義する。
- 三つのファミリ―(Command R, Haiku, GPT-3.5)から PoLL を構築し、単一の大規模審査者と比較する。
- バイナリQA判断には最大プーリング、1–5 のリッカート尺度のチャットボット判断には平均プーリングを使用。
- 三つの設定(single-hop QA, multi-hop QA, Chatbot Arena)と六つのデータセットを評価。
- Cohen’s kappa および 人間の判断との相関(Pearson および Kendall tau)を分析。
- コストと待機時間を評価し、PoLL が judge として GPT-4 よりはるかに安価であることを示す。
実験結果
リサーチクエスチョン
- RQ1多様な LLM 評価者のパネル(PoLL)は、単一の大規模審査者より人間の判断との相関で優れているか?
- RQ2PoLL は単一モデル審査者で見られるモデル内バイアスと変動を減少させるか?
- RQ3PoLL のコストと待機時間の影響は GPT-4 を審査者として使用する場合と比べてどうか?
- RQ4単一ヒット QA、マルチヒット QA、チャットボット評価など、異なるタスクとデータセットに対して PoLL はどれだけ堅牢か?
主な発見
- PoLL は、GPT-4 および個々の評価者よりも単一ヒップ QA データセット全般で人間の判断との Cohen’s kappa 相関が高い。
- PoLL は Chatbot Arena のランキングで人間の判断との相関が最も高く、特に上位において。
- judge としての GPT-4 は高い分散を示し、特定のタスクでは小さく多様なモデルに上回られることがある。
- 異種モデルからの判断をプールすることで、モデル内スコアリングのバイアスを減少させ、個々の審査者よりスコアの分散を小さくする。
- PoLL は judge として GPT-4 を実行するのより七倍以上安価で、並列処理により一般に高速。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。