Skip to main content
QUICK REVIEW

[論文レビュー] Semi-Autoregressive Training Improves Mask-Predict Decoding

Marjan Ghazvininejad, Omer Levy|arXiv (Cornell University)|Jan 23, 2020
Topic Modeling参考文献 15被引用数 48
ひとこと要約

SMART training は条件付きマスク言語モデルを改善し、マスク-predictデコードの性能を向上させ、自己回帰モデルとの差を大部分縮小し、翻訳品質を向上させる。

ABSTRACT

The recently proposed mask-predict decoding algorithm has narrowed the performance gap between semi-autoregressive machine translation models and the traditional left-to-right approach. We introduce a new training method for conditional masked language models, SMART, which mimics the semi-autoregressive behavior of mask-predict, producing training examples that contain model predictions as part of their inputs. Models trained with SMART produce higher-quality translations when using mask-predict decoding, effectively closing the remaining performance gap with fully autoregressive models.

研究の動機と目的

  • トレーニングと半自己回帰的マスク予測デコードの不一致を動機づけ、解決する。
  • トレーニング時の予測ベース入力をより適切に反映するSMARTトレーニングを提案する。
  • 標準的なMTベンチマークでSMARTを評価し、NARTおよび自己回帰ベースラインと比較する。
  • 訓練の選択(例:全トークンの予測、前向きパス)が性能と頑健性にどう影響するかを分析する。

提案手法

  • 金のターゲットシーケンスから開始し、ランダムなサブセットをマスクしてY_goldを作成。
  • 部分的に観測されたY_gold_obsからY_predを予測して全シーケンスを得る。
  • Y_predから新しいランダムサブセットをマスクして学習入力Y_pred_obsを作成し、金のY_goldを予測するよう訓練する。
  • 観測された予測の誤りを正すことを可能にするため、すべてのトークンに対してクロスエントロピーで訓練する。
  • 任意でマスク-predictの予測ステップを変更して、マスクされたトークンだけでなくすべてのトークンを予測する(頑健性のため)。

実験結果

リサーチクエスチョン

  • RQ1SMARTトレーニングはマスク-predictデコードを使用した場合、元のNARTトレーニングと比較して翻訳品質を向上させるか。
  • RQ2標準のMTベンチマークでSMARTトレーニングモデルは完全な自己回帰のベースラインにどれだけ近づくか。
  • RQ3予測すべき全トークン vs マスクされたトークン、前方パスの数など、どのようなトレーニングの変動性が性能に影響するか。
  • RQ4SMARTはマスク-predictで言語ペアとデコード反復回数(T)においてどのように性能を示すか。
  • RQ5学習時の難易度(ゴールドマスキング比)と学習への影響は何か。

主な発見

  • SMARTはNARTより翻訳BLEUが高く、ベンチマーク間で平均 +0.71 BLEU。
  • デコード反復回数を10回とすると、SMARTはWMT’14 EN-DEで27.65 BLEUに達し、強力な自己回帰ベースラインの27.75 BLEUに近い。
  • 10反復のマスク-predictでSMARTはWMT’17でDE-EN 31.27、EN-ZH 34.06を達成し、自己回帰の性能に近づいている。
  • predictステップでSMARTを訓練し、全トークンを予測するようにすると、4回の反復で開発セットに約0.40 BLEUの利得。
  • 反復を増やすと一般に自己回帰モデルとの差が縮まり、一部のベンチマークでは同等またはほぼ同等の性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。