[論文レビュー] G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment
G-Eval は GPT-4 を使い、チェイン・オブ・ソートを用いた form-filling 評価フレームワークで NLG 出力を評価し、従来の指標より人間との相関が高く、LLM が生成したテキストへ偏りがあることを明らかにする。
The quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especially for tasks that require creativity and diversity. Recent studies suggest using large language models (LLMs) as reference-free metrics for NLG evaluation, which have the benefit of being applicable to new tasks that lack human references. However, these LLM-based evaluators still have lower human correspondence than medium-size neural evaluators. In this work, we present G-Eval, a framework of using large language models with chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of NLG outputs. We experiment with two generation tasks, text summarization and dialogue generation. We show that G-Eval with GPT-4 as the backbone model achieves a Spearman correlation of 0.514 with human on summarization task, outperforming all previous methods by a large margin. We also propose preliminary analysis on the behavior of LLM-based evaluators, and highlight the potential issue of LLM-based evaluators having a bias towards the LLM-generated texts. The code is at https://github.com/nlpyang/geval
研究の動機と目的
- 参照ベースの指標や安価な LLM スコアを超えた NLG の自動評価の改善を動機づける。
- チェイン・オブ・ソートを用いた大規模言語モデルを活用して、スコア付けを導く詳細な評価手順を作成する。
- 細かな連続品質スコアを生み出すフォームベースの採点パラダイムを提供する。
- 要約と対話タスクを横断して、LLM ベースの評価手法が人間の判断とどの程度相関するかを評価する。
- LLM 評価者が LLM 生成テキストに対して示す潜在的なバイアスと、それが自己改善フィードバックループに与える影響を調査する。
提案手法
- タスク定義プロンプト、詳細な評価手順を含む CoT(チェイン・オブ・ソート)、およびLLM出力を用いるスコアリング関数という3つの要素からなるプロンプトベースの評価者アーキテクチャ。
- CoT ガイダンスによる評価:プロンプト+基準から評価手順を生成し、その後フォームフィリングプロンプトで候補テキストを評価。
- 確率重み付きスコアリング:LLM の出力トークン確率を用いて事前定義されたスコアの加重和として最終スコアを計算し、連続的な評価を実現。
- デコード設定を用いてトークン確率を推定するバックボーンモデルとして GPT-4(G-Eval-4)および GPT-3.5(G-Eval-3.5)を活用。
- SummEval(要約)および Topical-Chat/QAGS(対話と幻覚)ベンチマークでメタ評価を実施して人間との整合性を評価。
実験結果
リサーチクエスチョン
- RQ1CoT を用いた LLM ベースの評価者は、オープンエンドの NLG タスクにおける人間の判断とどの程度相関するか?
- RQ2フォームフィリング型の確率重み付き評価フレームワークは、既存の指標と比較して相関性と粒度を改善するか?
- RQ3モデルサイズ(GPT-4 vs GPT-3.5)とチェイン・オブ・ソートの指示が、要約と対話タスクにおける評価性能に与える影響は?
- RQ4LLM ベースの評価者は LLM 生成テキストに偏りを示すか、報酬信号としての利用にどのような影響があるか?
主な発見
- G-Eval-4 は SummEval における人間の判断との Spearman または Kendall-Tau の相関が従来の評価手法より高く、GPTScore や UniEval をいくつかの指標で上回る。
- CoT ガイダンスは次元を超えて評価性能を向上させ、CoT 有効化の G-Eval は CoT なしの版より高い相関を示す。
- 確率正規化はより細かく連続的なスコアを生み出し、いくつかの設定で直整数スコアよりランクベースの相関(例:Spearman)を改善する。
- 大きなバックボーンモデル(GPT-4)は概ね人間との整合性信号と頑健性を高めるが、結果はタスク次元により異なる(例:Topical-Chat の一部の次元は感度が低い)。
- LLMベースの評価者はLLM生成テキストに偏る可能性があり、モデル改善の報酬として用いられる場合自己強化リスクを示唆する。
- G-Eval は要約(SummEval)と対話(Topical-Chat、QAGS)ベンチマークで高い性能を示し、しばしば最先端のベースラインを超える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。