[論文レビュー] Large Language Models as Annotators for Machine Translation Quality Estimation
この論文は GPT-4o を用いたプロンプトで合成 MQM 風の注釈を生成し COMET-QE の訓練に利用することで、LLM が生成した注釈が人間の判断と相関し、中国語-英語および英語-ドイツ語のQE性能で競合的な結果を達成することを示す。PPbMQM という、簡略化された MQM カテゴリと重症度ベースのスコアリングを用いる few-shot プロンプトを提案し、注釈品質を制御する。
Large Language Models (LLMs) have demonstrated excellent performance on Machine Translation Quality Estimation (MTQE), yet their high inference costs make them impractical for direct application. In this work, we propose applying LLMs to generate MQM-style annotations for training a COMET model: following Fernandes et al. (2023), we reckon that segment-level annotations provide a strong rationale for LLMs and are key to good segment-level QE. We propose a simplified MQM scheme, mostly restricted to top-level categories, to guide LLM selection. We present a systematic approach for the development of a GPT-4o-based prompt, called PPbMQM (Prompt-Pattern-based-MQM). We show that the resulting annotations correlate well with human annotations and that training COMET on them leads to competitive performance on segment-level QE for Chinese-English and English-German.
研究の動機と目的
- LLM の高い性能と推論コストの高さを踏まえ、QE モデルを訓練するための LLM 生成注釈の利用を動機付ける。
- MQM をトップレベルのカテゴリと「欠落(Omission)」サブカテゴリーに簡略化し、LLM の選択と分析を導く。
- COMET-QE の訓練用合成 MQM 注釈を生成する体系的なプロンプトベース手法(PPbMQM)を開発する。
- LLM 生成注釈と人間の MQM 注釈の相関と下流の QE 性能を評価する。
- 言語ペア転移(中国語-英語と英語-ドイツ語)とゼロショット対少数ショット prompting の影響を調査する。
提案手法
- 4 段階のプロンプト設計プロセスを開発する(知識テスト、ゼロショット・プロンプト、プロンプト精錬、少数ショット prompting)。
- MQM カテゴリを上位レベルに限定:Accuracy、Fluency、Terminology、Style、Locale Convention、サブカテゴリとして Omission、重大度として Major/Minor を使用。
- 4 つの大規模言語モデル(GPT-3.5、GPT-4 Turbo、GPT-4o、LLaMA 3 70B)を用いて EbHE-WMT-MT データ上に MQM 風注釈を生成。
- システムのペルソナ、出力オートメータ、反省プロンプトを用いて MQM 注釈の構造化 JSON 出力を作成。
- 少数ショットのプロンプトで重症度ベースのスコアリングを適用し、訓練データへのマッピングと同時に非常に低重症度ケースを除外する可能性を検討。

実験結果
リサーチクエスチョン
- RQ1LLM は人間の MQM 注釈と一致する MQM 風注釈を生成できるか?
- RQ2LLM が生成した MQM 注釈を用いて QE モデル(COMET-QE)を訓練した場合、 zh-en および en-de のセグメントレベル MT 品質推定で競争力があるか?
- RQ3Few-shot の PPbMQM プロンプト戦略は、ゼロショットと比べてスパンレベルの指標と人間判断との相関を改善するか?
- RQ4PPbMQM で訓練された QE モデルは、人間 MQM データで訓練されたモデルと、品質が高いセグメントと低品質なセグメントの両方で、どのように比較されるか?
- RQ5言語ペアが LLM 生成 MQM 注釈の品質と下流の QE パフォーマンスに与える影響は?
主な発見
- LLMs は人間の MQM 注釈と強く相関する MQM 風注釈を生成する。
- PPbMQM 生成注釈で訓練した COMET-QE は、人間注釈で訓練したモデルと比較して、特に低品質セグメントでしばしば優る Pearson 相関を達成。
- GPT-4o と LLaMA-3 はスパン指標において人間注釈への高い整合性を示すが、 parsability はモデル間で異なる。
- 少数ショットの PPbMQM はゼロショットに比べて Omission などの特定エラータイプを特定できるようにし、重症度ベースのマッピングを適用することで QE 訓練データの有用性を向上させる。
- LLM 生成データは、MQM 注釈付き参照を持たない言語ペアの QE モデル訓練にも利用できる可能性があり、低リソースや新規ペアに対する可能性を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。