[論文レビュー] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
本論文は、強力なLLMがチャットボットのジャッジとして機能できるかを、MT-benchとChatbot Arenaを用いてLLMベースの判断と人間の嗜好を比較することで評価し、GPT-4が人間の合意と80%以上一致することを示した。
Evaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these models on more open-ended questions. We examine the usage and limitations of LLM-as-a-judge, including position, verbosity, and self-enhancement biases, as well as limited reasoning ability, and propose solutions to mitigate some of them. We then verify the agreement between LLM judges and human preferences by introducing two benchmarks: MT-bench, a multi-turn question set; and Chatbot Arena, a crowdsourced battle platform. Our results reveal that strong LLM judges like GPT-4 can match both controlled and crowdsourced human preferences well, achieving over 80% agreement, the same level of agreement between humans. Hence, LLM-as-a-judge is a scalable and explainable way to approximate human preferences, which are otherwise very expensive to obtain. Additionally, we show our benchmark and traditional benchmarks complement each other by evaluating several variants of LLaMA and Vicuna. The MT-bench questions, 3K expert votes, and 30K conversations with human preferences are publicly available at https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge.
研究の動機と目的
- 従来の能力ベンチマークを超えたLLMベースのチャットボット評価の必要性を動機づける。
- オープンエンドで多ターンの対話に対する人間の嗜好を推定する判定者としてLLMsを提案する。
- 人間の評価に沿った評価を測定するための2つのベンチマーク(MT-benchとChatbot Arena)を作成する。
- LLMジャッジのバイアスと制限を分析し、緩和戦略を提案する。
- データセットを公開し、能力ベンチマークと嗜好ベンチマークを組み合わせたハイブリッド評価フレームワークを推進する。
提案手法
- ペアワイズ比較、単一回答の評価、参照ガイド付き評価の3つのLLMジャッジのバリエーションを導入する。
- 位置バイアス、冗長性バイアス、自己強化バイアスなどのバイアスを調査し、緩和技術を評価する。
- MT-bench(80の多ターン質問、3Kの専門家投票)とChatbot Arena(30Kのクラウド投票)を用いてLLMジャッジを人間の嗜好と比較する。
- 複数の設定の下でMT-benchとArenaデータセットにおけるGPT-4ジャッジと人間の合意を評価する。
- ポジションの入替、Few-shotジャッジ、チェーン・オブ・ソートプロンプト、参照指向の判断、およびジャッジのファインチューニングなどの強化を探る。
- MT-benchの質問、専門家投票、Arenaの対話データの公開を提供する。
実験結果
リサーチクエスチョン
- RQ1強力なLLM(例:GPT-4)はオープンエンドで多ターンのチャットボット対話に対する人間の嗜好を再現できるか?
- RQ2LLMベースの判断に影響を与えるバイアス(位置、冗長性、自己強化)は何か、そしてそれらをどう緩和できるか?
- RQ3管理下の(MT-bench)とクラウドソースの設定(Chatbot Arena)で、LLMジャッジは人間の評価者と一致するか?
- RQ4参照指向の指示、思考過程の推論、またはFew-shot promptingがジャッジの信頼性に与える付加価値は何か?
- RQ5LLM-as-a-judgeを使用する際に、モデルのバリアントとトレーニングデータが評価結果にどのように影響するか?
主な発見
- GPT-4をジャッジとして、人間の嗜好とMT-benchで80%以上の一致を達成し、人間同士の一致レベルと一致する。
- GPT-4の単一回答評価はペアワイズ判断と人間とよく一致し、スケーラビリティを提供する。
- 位置と冗長性のバイアスは存在するが緩和可能であり、いくつかのバイアスはモデル依存である(例:Claude-v1の名前バイアス)。
- 参照案内付きと連鎖思考プロンプトは、ジャッジの数学/推論評価の失敗を大幅に減らす。
- MT-benchとChatbot Arenaは標準ベンチマークを補完する。GPT-4ジャッジの性能はモデルペアとカテゴリ全体で人間の嗜好を追跡する。
- 高品質な対話データでファインチューニングするとMMLU/ truthful QAおよびMT-benchの成果を向上させる可能性があるが、単一のベンチマークだけではモデル品質を完全に決定できない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。