[論文レビュー] LLM-Eval: Unified Multi-Dimensional Automatic Evaluation for Open-Domain Conversations with Large Language Models
LLM-Eval は、ground-truth 参照なしで人間の判断と相関する、オープン領域の会話向けの単一プロンプト、統一の多次元評価フレームワークを導入します。多様なデータセットで多くのベースラインよりも性能を上回ります。
We propose LLM-Eval, a unified multi-dimensional automatic evaluation method for open-domain conversations with large language models (LLMs). Existing evaluation methods often rely on human annotations, ground-truth responses, or multiple LLM prompts, which can be expensive and time-consuming. To address these issues, we design a single prompt-based evaluation method that leverages a unified evaluation schema to cover multiple dimensions of conversation quality in a single model call. We extensively evaluate the performance of LLM-Eval on various benchmark datasets, demonstrating its effectiveness, efficiency, and adaptability compared to state-of-the-art evaluation methods. Our analysis also highlights the importance of choosing suitable LLMs and decoding strategies for accurate evaluation results. LLM-Eval offers a versatile and robust solution for evaluating open-domain conversation systems, streamlining the evaluation process and providing consistent performance across diverse scenarios.
研究の動機と目的
- 人間の注釈や ground-truth 参照を必要としない、オープンドメインの会話の統一的で多次元の自動評価手法を開発する。
- 1つのプロンプトと統一された評価スキームを活用して、1回のモデル呼び出しで会話品質の複数の次元を評価する。
- 多様なベンチマークデータセットとLLM構成にわたって、手法の頑健性・効率性・適応性を評価する。
提案手法
- 複数の次元にわたる評価タスクと望ましい基準を定義する自然言語による指示を設計する。
- 各次元のスコア範囲と構造を指定するフォーマット指示を提供する。
- LLM評価のために、対話コンテキスト、リファレンス(利用可能な場合)、生成応答を連結して1つのプロンプトを作成する。
- スキーマに従って、各次元のスコアを出力する1回のLLM推論を用いる。
- 人間のリファレンス有無を問わず、データセット間で評価を行い、ベースラインや最先端手法と比較する。
- 異なるLLMとデコーディング手法が評価性能に及ぼす影響を分析する。
実験結果
リサーチクエスチョン
- RQ1単一のプロンプトと統一スキーマで、多様なオープンドメインデータセット全体の多次元的な会話品質を信頼性高く評価できるか?
- RQ2LLM-Eval は、ベースラインや他の最先端指標と比べて、人間判断との相関の点でどう機能するか?
- RQ3異なるLLMとデコード戦略を使用することが、評価精度と頑健性にどのような影響を与えるか?
- RQ40-5 vs 0-100 のような異なるスコア範囲やリファレンスなし設定への適応性は?
主な発見
- LLM-Eval は複数のデータセットで多くのベースラインより人間の判断との相関が高い。
- 0-5 と 0-100 の両方の構成が競争力を持ち、いくつかの設定では0-5が0-100をやや上回る。
- 対話最適化されたLLMs(Claude と ChatGPT)は、このタスクでは一般に GPT-3.5 より評価性能が高い。
- この評価設定ではGreedyデコードがトップ-pサンプリングを上回す傾向にある。
- 本手法はリファレンスなしの状況でも、人間リファレンスが利用可能な場合でも有効であり、設定を超えて頑健性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。