QUICK REVIEW

[論文レビュー] LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

Anna Bavaresco, Raffaella Bernardi|arXiv (Cornell University)|Jun 26, 2024

Artificial Intelligence in Law被引用数 6

ひとこと要約

論文はJudge-Benchを紹介し、人間の評価を再現する11のLLMの能力を評価する20データセットのベンチマークである。大きな変動性があり、LLMはまだ人間の判定を置き換える信頼性が低い。

ABSTRACT

There is an increasing trend towards evaluating NLP models with LLMs instead of human judgments, raising questions about the validity of these evaluations, as well as their reproducibility in the case of proprietary models. We provide JUDGE-BENCH, an extensible collection of 20 NLP datasets with human annotations covering a broad range of evaluated properties and types of data, and comprehensively evaluate 11 current LLMs, covering both open-weight and proprietary models, for their ability to replicate the annotations. Our evaluations show substantial variance across models and datasets. Models are reliable evaluators on some tasks, but overall display substantial variability depending on the property being evaluated, the expertise level of the human judges, and whether the language is human or model-generated. We conclude that LLMs should be carefully validated against human judgments before being used as evaluators.

研究の動機と目的

LLMsがNLP評価において人間の判断を置換できるかを評価する動機。
複数のタスクとデータソース（モデル生成テキストと人間生成テキスト）を含む、大規模で多様なベンチマーク（Judge-Bench）を人間の注釈付きで提供する。
特性、専門知識レベル、データタイプ間でLLMの判断と人間の判断の相関を定量化する。
将来の評価者としてのLLMの使用を導くために、タスク特有の傾向と制限を識別する。

提案手法

さまざまなサイズの代表的なオープンウェイトおよび独占（proprietary）LLMを選定する（例: GPT-4o, Llama-3-70B, Gemini-1.5, Mixtral, Command R/R+）。
元の人間注釈ガイドラインの指示をプロンプトとして使用し、要約された判断を出力する制約を追加する。
応答を統計で評価する：等级付き注釈はSpearmanのrhoで、カテゴリ別注釈はCohenのkappaで評価する。不正確な応答を比較可能性のためにランダム値に置換する。
個別判断が利用可能な8データセットで人間のアノテータ間一致度（Krippendorffのalpha）を計算する。
専門家の注釈と非専門家の注釈、そして人間言語 vs 機械生成データ間の相関差を分析する。

Figure 1: Evaluation by expert and non-expert human annotators and by LLMs for two tasks involving human-generated (left) and machine-generated text (right).

実験結果

リサーチクエスチョン

RQ1現在のLLMsの判断は20のNLP評価データセットにおいて人間の判断とどの程度一致するか？
RQ2タスクタイプ、評価される特性、データソース（モデル生成 vs 人間生成）によって整合性はどう変わるか？
RQ3モデルタイプ（オープンウェイト vs プロプライエタリ）とモデルサイズは人間の判断との整合性に影響を与えるか？
RQ4専門家 vs 非専門家の注釈者の専門知識はLLMと人間の判断の相関にどう影響するか？
RQ5LLMsをNLP評価の審査役として使用する際の限界と信頼性の懸念は何か？

主な発見

LLMsはデータセットごとに人間の判断との相関に大きなばらつきを示す。
GPT-4oはしばしば最高ランクを獲得するが、いくつかのオープンモデル（例: Llama-3-70B, Mixtral-8x22B）は特定のタスクで上回る。
評価付きの注釈では非専門家の人間判断との整合性が専門家判断より一般的に高い。
1つのモデルがすべての特性で優位というわけではなく、異なるモデルが異なる品質ディメンションで優れている。
すべてのモデルは人間が生成した言語の方が機械生成テキストより人間の判断と整合性が高く、システム出力の評価には慎重を要することを示唆。
毒性と安全性タスクは特に整合性が低く、ガードレールのための無効応答率が高い。

Figure 2: Model correlation with human experts vs. non-expert judgments (OLMo has a negative correlation and does not appear in the figure).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。