QUICK REVIEW

[論文レビュー] Unbabel's Participation in the WMT20 Metrics Shared Task

Ricardo Rei, Craig Stewart|arXiv (Cornell University)|Oct 29, 2020

Natural Language Processing Techniques参考文献 17被引用数 26

ひとこと要約

本論文では、XLM-RoBERTaを用いた多言語文脈表現のための拡張されたCOMETフレームワークを用いて、WMT20 Metrics Shared TaskにUnbabelが参加したことを提示している。著者は、複数の翻訳出力の推論技術と文書レベルスコアリングの重み付き平均化手法を導入し、複数の言語対についてセグメントレベル、文書レベル、システムレベル、QE-as-a-metricの各トラックで最先端または競争力のある性能を達成した。

ABSTRACT

We present the contribution of the Unbabel team to the WMT 2020 Shared Task on Metrics. We intend to participate on the segment-level, document-level and system-level tracks on all language pairs, as well as the 'QE as a Metric' track. Accordingly, we illustrate results of our models in these tracks with reference to test sets from the previous year. Our submissions build upon the recently proposed COMET framework: We train several estimator models to regress on different human-generated quality scores and a novel ranking model trained on relative ranks obtained from Direct Assessments. We also propose a simple technique for converting segment-level predictions into a document-level score. Overall, our systems achieve strong results for all language pairs on previous test sets and in many cases set a new state-of-the-art.

研究の動機と目的

セグメントレベル、文書レベル、システムレベルのスコアリングを支援するCOMETフレームワークの強化を通じて、自動機械翻訳評価を改善すること。
複数の翻訳出力における参考訳の質と数の影響を調査すること。
セグメントレベルスコアを文書レベルの指標に統合する堅牢な手法を開発すること。
事前学習済み多言語モデルの使用を最適化し、人的判断との相関を向上させること。
多様なMT評価設定におけるランク付けモデルと回帰モデルの有効性を評価すること。

提案手法

XLM-RoBERTa-largeを微調整し、ソース、仮説、参考訳テキストの文脈的埋め込みを生成する多言語エンコーダとして使用する。
プールド表現を入力としてフィードフォワード回帰器を用いて、人的品質スコア（例：Direct Assessment、HTER、MQM）を直接回帰する推定モデルを学習する。
Direct Assessmentデータから得られる相対的順位を学習対象とする新しいランク付けモデル（COMET-rank）を提案する。
複数の参考訳を推論時に統合することで予測の頑健性を向上させる、複数の参考訳を用いた推論戦略を実装する。
セグメントレベルスコアを単一の文書レベルスコアに集約する重み付き平均化手法を提案する。
層ごとの学習率の段階的減少と埋め込み層の凍結を適用し、言語対間での一般化性能を向上させる。

実験結果

リサーチクエスチョン

RQ1複数の参考訳の導入が自動MT評価指標の性能に与える影響は何か？
RQ2参考訳の質と数の両方において、人的判断との相関を向上させるために、どちらがより重要か？
RQ3統一されたCOMETフレームワークは、セグメントレベル、文書レベル、システムレベルのMT評価を効果的にサポートできるか？
RQ4異なる事前学習モデルと微調整戦略が人的品質スコアとの相関に与える影響は何か？
RQ5セグメントレベル予測を文書レベルスコアに統合する最適な方法は何か？

主な発見

提案された複数の参考訳を用いた推論手法により、高品質な代替参考訳を用いた場合、en-de言語対でピアソン相関（r）が0.455に向上した。
1つの高品質な参考訳を用いることで、複数の低品質な参考訳を用いる場合を上回る性能が得られた。これは、参考訳の質が数よりも重要であることを示唆している。
Kendall’s Tau（τ）の順位相関は、さまざまな参考訳の組み合わせに対して安定しており、セグメントレベルの順位付け性能は回帰性能ほど参考訳の質に敏感でないことが示された。
複数の言語対について、セグメントレベル、文書レベル、システムレベル、QE-as-a-metricの各トラックで、最先端または競争力のある結果を達成した。
セグメントレベル予測の重み付き平均化に基づく文書レベルスコアリング手法は、テストセット全体で有効かつ一貫性のある性能を示した。
XLM-RoBERTa-largeと微調整済み回帰器を用いたCOMETフレームワークは、WMT19テストセットにおいて、BERTscore、Bleurt、Prismといった既存の指標を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。