Skip to main content
QUICK REVIEW

[論文レビュー] Large Language Models Are State-of-the-Art Evaluators of Translation Quality

Tom Kocmi, Christian Federmann|arXiv (Cornell University)|Feb 28, 2023
Topic Modeling被引用数 108
ひとこと要約

本論文は、参照あり/なしの両方で機械翻訳品質を評価するGPTベースの指標 GEMBA を導入し、WMT22 MQM データの3言語ペアに対してゼロショットプロンプトとさまざまなGPTモデルを用いて最先端のシステムレベル精度を示す。再現性のためにコードとプロンプトを公開する。

ABSTRACT

We describe GEMBA, a GPT-based metric for assessment of translation quality, which works both with a reference translation and without. In our evaluation, we focus on zero-shot prompting, comparing four prompt variants in two modes, based on the availability of the reference. We investigate nine versions of GPT models, including ChatGPT and GPT-4. We show that our method for translation quality assessment only works with GPT~3.5 and larger models. Comparing to results from WMT22's Metrics shared task, our method achieves state-of-the-art accuracy in both modes when compared to MQM-based human labels. Our results are valid on the system level for all three WMT22 Metrics shared task language pairs, namely English into German, English into Russian, and Chinese into English. This provides a first glimpse into the usefulness of pre-trained, generative large language models for quality assessment of translations. We publicly release all our code and prompt templates used for the experiments described in this work, as well as all corresponding scoring results, to allow for external validation and reproducibility.

研究の動機と目的

  • GPTベースのプロンプトがシステムレベルで翻訳品質を正確に評価できることを実証する。
  • 参照ありおよびなしのモードで4つのプロンプト・テンプレートと複数のGPTモデルを評価する。
  • GEMBA をWMT22の指標と比較し最先端性能を確立する。
  • 言語ペア間でのセグメントレベルとシステムレベルの性能・モデル挙動を分析する。

提案手法

  • GEMBA をセグメントごとのスコアリング機構として定義し、それをシステムレベルのスコアへ集約する。
  • 参照の有無の2モードで4つのプロンプトテンプレート(DA、SQM、Stars、Classes)を用いて実験する。
  • 9つのGPTモデルを使用し、デフォルトはGPT-4としてゼロショットのセグメントスコアを生成する。
  • セグメントごとにスコアを集約してシステムレベルの指標を得る。
  • WMT22のMQMベースの人間ラベルと比較し、主要な自動指標(例:COMET、BLEURT)と比較評価を行う。
  • 頑健性、失敗率、セグメントレベルの相関( Kendall の Tau )を評価する。

実験結果

リサーチクエスチョン

  • RQ1LLMを用いた prompting により微調整なしで翻訳品質を信頼性高く評価できるか。
  • RQ2どのプロンプトテンプレートとGPTモデルが人間の MQM 判断と最も高い相関を示すか。
  • RQ3参照あり版となし版の GEMBA がWMT22データで最先端性能を達成するか。
  • RQ4GEMBA のシステムレベル結果は言語ペアを超えて既存の指標と比較してどうか。
  • RQ5セグメントレベルとシステムレベルでの制約と変動性はどのようか。

主な発見

MetricAccuracy
GEMBA-GPT4-DA89.8%
GEMBA-GPT4-DA[noref]87.6%
MetricX XXL85.0%
BLEURT-2084.7%
COMET-2283.9%
COMET-2083.6%
UniTE82.8%
MS-COMET-2282.8%
MATESE81.0%
YiSi-179.2%
COMETKiwi[noref]78.8%
COMET-QE[noref]78.1%
BERTScore77.4%
UniTE-src[noref]75.9%
MS-COMET-QE-22[noref]75.5%
MATESE-QE[noref]74.8%
f200spBLEU74.1%
chrF73.4%
BLEU70.8%
  • 参照ベース設定のGPT-4を用いたGEMBAは、en-de、en-ru、zhen-en のMQM 2022データでシステムレベルの最先端精度を達成した。
  • ノーリファレンス設定(品質評価)でのGPT-4によるGEMBAは、ノーリファレンス指標の中で最高のシステムレベル性能を示し、参照ベースのGEMBAにほぼ接近した。
  • 4つのプロンプト変種のうち、最も制約の少ないDirect Assessment(DA)テンプレートが最も良い性能を示した。
  • 翻訳品質評価にはGPT-3.5以上の大規模モデルが必要であり、GPT-2とAdaは低性能または不適切だった。
  • セグメントレベルの相関( Kendall の Tau )はGPT-4とDavinci-003で高いが、トップ指標にはまだ及ばず、離散的なスコアリングがTauに影響を与える可能性がある。
  • GEMBA-DA および関連プロンプトは、プロンプトとモデルの組み合わせで1%未満の無効回答で頑健性を示す。
  • 本研究は公開コード、プロンプト、および結果を提供し、外部検証と再現性を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。