QUICK REVIEW

[論文レビュー] GPTScore: Evaluate as You Desire

Jinlan Fu, See-Kiong Ng|arXiv (Cornell University)|Feb 8, 2023

Topic Modeling被引用数 81

ひとこと要約

GPTScore は、ゼロショット指示と文脈内の例を用いて、大規模な事前学習済み言語モデルを活用し、注釈データなしで複数のカスタマイズ可能な評価観点にわたって生成テキストを評価します。

ABSTRACT

Generative Artificial Intelligence (AI) has enabled the development of sophisticated models that are capable of producing high-caliber text, images, and other outputs through the utilization of large pre-trained models. Nevertheless, assessing the quality of the generation is an even more arduous task than the generation itself, and this issue has not been given adequate consideration recently. This paper proposes a novel evaluation framework, GPTScore, which utilizes the emergent abilities (e.g., zero-shot instruction) of generative pre-trained models to score generated texts. There are 19 pre-trained models explored in this paper, ranging in size from 80M (e.g., FLAN-T5-small) to 175B (e.g., GPT3). Experimental results on four text generation tasks, 22 evaluation aspects, and corresponding 37 datasets demonstrate that this approach can effectively allow us to achieve what one desires to evaluate for texts simply by natural language instructions. This nature helps us overcome several long-standing challenges in text evaluation--how to achieve customized, multi-faceted evaluation without the need for annotated samples. We make our code publicly available at https://github.com/jinlanfu/GPTScore.

研究の動機と目的

注釈付けと学習要件を最小化しつつ、柔軟で多面的なテキスト評価の欠如に対処する。
生成テキストの評価に、大規模生成モデルの新たに現れる能力（ゼロショット指示、文脈内学習）を活用する。
タスク、側面、および文脈を定義して、条件付き生成確率をスコアとして計算するためのプロトコルを提供する。
信頼性と一般性を評価するため、さまざまなNLGタスクにわたって複数のバックボーン（GPT-2、OPT、FLAN-T5、GPT-3）を比較する。

提案手法

GPTScore を提案する。これは、h のトークンの対数確率の加重和として GPTScore(h|d,a,S) を、プロンプト T(d,a,S) と文脈 S に条件付けた形で計算する（p(y|x,θ)）。
タスク記述 d と側面定義 a を用いて評価プロトコルを定義し、必要に応じて文脈内学習でモデルを導くための exemplar サンプルを用いる。
異なるタスクと側面に対する評価プロトコルと側面定義をエンコードするプロンプトテンプレート T(·) を使用する。
GPTScore を GPT-3、OPT、FLAN-T5、GPT-2 を含むバックボーンで実装し、デコーダーのみとエンコーダ-デコーダーのアーキテクチャを探索する。
2 つの評価変種を検討する：src->hypo（ソースに基づく）と ref->hypo（ゴールド参照に基づく）で、タスク横断で人間の判断と一致させる。

実験結果

リサーチクエスチョン

RQ1指示ベースのプロンプトと文脈内デモンストレーションは、訓練を伴わない多面的評価を、さまざまなNLPタスクで生成テキストに対して実現できるか？
RQ2異なるバックボーン（GPT-3、GPT-2、OPT、FLAN-T5、GPT-J）は、データセット全体で信頼性と人間の判断との相関においてどう比較されるか？
RQ3さまざまなタスクと側面において、スコア基準としてソースと参照のどちらを使用するかの影響は何か？
RQ4タスク定義と側面定義は、要約、対話、データ-to-テキスト、機械翻訳などの領域を横断して、GPTScore の信頼性にどの程度影響するか？

主な発見

指示ベースのプロンプトは、多くの設定でGPTScoreの性能を大幅に向上させる。
デコーダーのみのモデルは、エンコーダ-デコーダーモデルよりも、指示とデモンストレーションの恩恵を受けることが多い。
GPT3-d03 は一般に GPT3-d01 を上回るが、GPT3-c01 は MT で競争力のある結果を提供するコスト効率の高い代替案である。
タスクを横断して、指示を伴うGPTScoreは、人間の判断との相関で、いくつかの监督付きまたは従来の指標を上回ることがある。
GPTScore は、複数のモデルファミリーにおいて、指示とデモンストレーションを組み合わせた場合（IDM）に一貫した向上を示す。
要約、MT、データ-to-テキスト、対話タスクを横断して、GPTScore の派生は人間の判断と意味のある相関を示す（実験で報告されている通り）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。