Skip to main content
QUICK REVIEW

[論文レビュー] Machine Translation Evaluation with BERT Regressor

Hiroki Shimanaka, Tomoyuki Kajiwara|arXiv (Cornell University)|Jul 29, 2019
Natural Language Processing Techniques参考文献 12被引用数 23
ひとこと要約

本稿では、BERTの文対エンコーディングとファインチューニングされた文脈的埋め込みを活用して、人的評価スコアを予測するBERTベースの回帰モデルを提案する。このモデルは、WMT-2017のセグメントレベルメトリクスタスクにおいて、すべての英語向け言語対で最先端の性能を達成し、BERTの事前学習、文対の共同エンコーディング、エンドツーエンドのファインチューニングを活用することで、先行手法RUSEを上回っている。

ABSTRACT

We introduce the metric using BERT (Bidirectional Encoder Representations from Transformers) (Devlin et al., 2019) for automatic machine translation evaluation. The experimental results of the WMT-2017 Metrics Shared Task dataset show that our metric achieves state-of-the-art performance in segment-level metrics task for all to-English language pairs.

研究の動機と目的

  • 既存の手法よりも人的判断との相関性が高い新しい自動機械翻訳評価指標の開発。
  • BERTの事前学習済み文脈的表現がセグメントレベルの翻訳品質推定に寄与するかどうかの調査。
  • BERT固有の要素—事前学習手法、文対エンコーディング、ファインチューニング—がMTE性能に与える寄与の分析。
  • WMT-2017データセット上で、先行する最先端の文埋め込みベースの指標RUSEと、提案されたBERTベースの指標を比較すること。

提案手法

  • 事前学習済みBERTモデルを、ペア化されたMT仮説と参照翻訳から人的評価スコアを予測する回帰ヘッドにファインチューニングする。
  • BERTの文対エンコーダーの最終隠れ層における[CLS]トークンの埋め込みを、マルチレイヤーパーセプトロン(MLP)回帰器の入力として使用する。
  • 仮説と参照を1つの入力シーケンスとして同時にBERTに供給する文対の共同エンコーディングを適用し、文間関係のクロスアテンションモデリングを可能にする。
  • BERTエンコーダーとMLP回帰器をエンドツーエンドでファインチューニングし、文脈的表現がMTEタスクに適応できるようにする。
  • 開発データ上でバッチサイズ、ドロップアウト率、学習率、MLPアーキテクチャなどのハイパーパrameterをグリッドサーチで最適化する。
  • アブレーションバリアントの比較:ファインチューニングなしのBERT、異なる事前学習手法を用いたBERT、および代替の文エンコーダー(GloVe-BoW、QuickThought)を用いたRUSE。

実験結果

リサーチクエスチョン

  • RQ1独立した文エンコーディングと比較して、BERTベースの文対エンコーディングは自動機械翻訳評価を向上させるか?
  • RQ2マスク言語モデルと次文予測によるBERTの事前学習は、代替の事前学習手法と比較してMTE性能にどのように影響するか?
  • RQ3事前学習済みBERTエンコーダーをファインチューニングすることで、固定された埋め込みを使用する場合と比較してMTE性能がどの程度向上するか?
  • RQ4事前学習手法、文対エンコーディング、ファインチューニングの3つの主要な要素が、RUSEとの性能向上にそれぞれどの程度寄与しているか?

主な発見

  • 提案されたBERTベースの指標は、WMT-2017のセグメントレベルメトリクスタスクにおいて、すべての英語向け言語対で最先端の性能を達成し、RUSEおよび他のベースラインを上回っている。
  • マスク言語モデルと次文予測の両方を用いたBERTの事前学習は、QuickThought(NSPのみ)やGloVe-BoWと比較して顕著に優れた性能を示し、双方向的文脈学習の重要性を示している。
  • BERTにおける文対の共同エンコーディングは、RUSEが個別に文をエンコードし、埋め込みを統合する方法と比較して、人的判断との相関性が高いため、文間関係のモデリングがより優れていることを示している。
  • 事前学習済みBERTエンコーダーをファインチューニングすることで、固定されたBERT埋め込みを使用する場合と比較して顕著な性能向上が得られ、タスク固有の適応の利点を確認した。
  • アブレーションスタディにより、3つの主要な要素—事前学習手法、文対エンコーディング、ファインチューニング—が、それぞれ独立してかつ顕著に全体の性能向上に寄与していることが確認された。
  • すべての英語向け言語対において、人的評価スコアとのピアソン相関係数がRUSEを上回る安定した高い値を達成しており、BERTがMTEに有効であることを裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。