Skip to main content
QUICK REVIEW

[論文レビュー] An Empirical Study of LLM-as-a-Judge for LLM Evaluation: Fine-tuned Judge Model is not a General Substitute for GPT-4

Hui Huang, Bu, Xingyuan|arXiv (Cornell University)|Mar 5, 2024
Artificial Intelligence in Law被引用数 11
ひとこと要約

この論文は、LLM評価のための微調整されたジャッジモデルを実証的に評価し、域内では優れているが、タスク特異的で、スキームに過剰適合し、全体的な一般化能力と公平性では GPT-4 に及ばないことを示している。

ABSTRACT

Recently, there has been a growing trend of utilizing Large Language Model (LLM) to evaluate the quality of other LLMs. Many studies have fine-tuned judge models based on open-source LLMs for evaluation. While the fine-tuned judge models are claimed to achieve comparable evaluation capability with GPT-4, in this work, we conduct an empirical study of LLM-as-a-Judge. Our findings indicate that although the fine-tuned judge models achieve high performance on in-domain test sets, even surpassing GPT-4, they underperform GPT-4 across several dimensions, including generalizability, fairness and adaptability. We also reveal that the fine-tuned judge model inherently operates as a task-specific classifier, consequently imposing the limitations.

研究の動機と目的

  • 複数のデータセットとスキームにわたる微調整済みジャッジモデルの評価能力を評価する。
  • 微調整済みジャッジをGPT-4と正確さ、同意、公平性の点で比較する。
  • 生成スタイルと分類スタイル(回帰)のジャッジが性能に影響を与えるかを調査する。
  • クロススキーム評価下での微調整済みジャッジの一般化性とバイアスを検証する。

提案手法

  • 四つのオープンソースジャッジモデル(JudgeLM、PandaLM、Auto-J、Prometheus)をGPT-4由来データまたは人間の注釈データで微調整する。
  • 同じデータとプロンプトを用いて生成スタイルと分類スタイル(回帰)のバリアントを訓練する。
  • JudgeLM-test、PandaLM-test、Auto-J-test、Prometheus-test、MT-bench、LLMBarのバイアス検定を含む域内・域外のテストセットで評価する。
  • GPT-4および他のベースラインと正確さ、F1、同意、Pearson指標で比較する。
  • 評価者間およびスキーム間の相関を分析して過剰適合と一般化性を評価する。

実験結果

リサーチクエスチョン

  • RQ1微調整済みジャッジモデルは域内評価セットでGPT-4と同等の正確さを達成するか。
  • RQ2微調整済みジャッジはタスク依存の分類器として固有の一般化可能性を持たないのか(スキームを越えて)?
  • RQ3生成スタイルのジャッジと分類スタイルのジャッジは性能やバイアスに差があるのか。
  • RQ4クロススキームおよびバイアス評価データセットにおける微調整済みジャッジの性能はGPT-4と比較してどうか。
  • RQ5過度な冗長性や表面的品質など、どのようなバイアスが微調整済みジャッジに影響し、それはGPT-4とどう比較されるか。

主な発見

  • 域内テストセットで高い正確さを達成するが、スキーム固有の過剰適合によって制限される。
  • 分類スタイルのジャッジは同じデータで訓練すれば生成スタイルのものと同等の性能を示す。
  • 一つの評価スキームで訓練されたジャッジは別のスキームに適用すると性能が低下するが、GPT-4は頑健性を保つ。
  • クロスドメインおよび多ターンMT-bench評価で、微調整済みジャッジはGPT-4と比較して大きく劣る。
  • 微調整済みジャッジは、形式性や長々しさといった表面的品質に対してバイアスを示すことがあり、GPT-4とは異なる。
  • DeBERTaベースの評価者は、バイアステストにおいてLLMベースの評価者よりも公正性が高いことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。