QUICK REVIEW

[論文レビュー] Constant-Time Machine Translation with Conditional Masked Language Models.

Marjan Ghazvininejad, Omer Levy|arXiv (Cornell University)|Apr 19, 2019

Natural Language Processing Techniques参考文献 7被引用数 35

ひとこと要約

この論文は、条件付きマスキング言語モデルを用いて、非自己回帰的に目標語を予測し、固定回数のステップ内で信頼度が低い予測を繰り返し精錬する定常時間の機械翻訳モデルを提案する。自己回帰的Transformerの92–95％の性能を達成しながら、大幅に高速なデコードを実現し、SOTAの定常時間モデルよりも平均で3 BLEU以上向上する。

ABSTRACT

Most machine translation systems generate text autoregressively, by sequentially predicting tokens from left to right. We, instead, use a masked language modeling objective to train a model to predict any subset of the target words, conditioned on both the input text and a partially masked target translation. This approach allows for efficient iterative decoding, where we first predict all of the target words non-autoregressively, and then repeatedly mask out and regenerate the subset of words that the model is least confident about. By applying this strategy for a constant number of iterations, our model improves state-of-the-art performance levels for constant-time translation models by over 3 BLEU on average. It is also able to reach 92-95% of the performance of a typical left-to-right transformer model, while decoding significantly faster.

研究の動機と目的

神経機械翻訳における速度-性能のトレードオフを解消するため、定常時間の推論を可能にする。
同時にトークンを生成するための精度が低いという問題を抱える既存の非自己回帰的翻訳モデルを改善する。
モデルの信頼度に基づいて予測を繰り返し精錬するデコーディング戦略を開発し、自己回帰的生成なしに高品質な翻訳を実現する。
非常に高速な推論速度を維持しながら、定常時間モデルにおいて最先端の性能を達成する。

提案手法

入力と部分的にマスクされた目標文を条件として、任意の目標語のサブセットを予測するマスキング言語モデルの目的関数を用いてモデルを学習する。
デコーディングを、1ステップですべての目標トークンを非自己回帰的に生成することで初期化する。
モデルが最も自信のない目標語のサブセットを繰り返し特定し、再生成する。
翻訳品質を向上させるために、固定された定常回数の反復を繰り返す。
予測中にモデルが入力とマスクされた目標文の両方の文脈に注目できるように、条件付きマスキングを用いる。
各反復で再予測すべきトークンを動的に選択するために、モデルの信頼度推定値を活用する。

実験結果

リサーチクエスチョン

RQ1自己回帰的生成に依存せずに、非自己回帰的モデルが高品質な翻訳を達成できるか？
RQ2モデルの信頼度に基づく反復的精錬が、定常時間デコーディングにおける翻訳性能を向上させるか？
RQ3マスキング言語モデルの目的関数が、速度優位性を維持したまま効果的な非自己回帰的生成を可能にするか？
RQ4このアプローチの性能は、自己回帰的Transformerおよび先行する定常時間モデルと比べてどうか？
RQ5固定回数の精錬ステップを用いる場合、推論速度と翻訳品質のトレードオフはどのようなものか？

主な発見

提案手法は、SOTAの定常時間翻訳モデルを平均で3 BLEU以上向上させる。
標準的な左から右へのTransformerモデルの92–95％の性能を達成しながら、大幅に高速なデコードを実現する。
信頼度推定値に基づく反復的精錬戦略が、固定ステップ数内で効果的に翻訳品質を向上させる。
複数の翻訳ベンチマークにおいて強力な性能を示し、先行する非自己回帰的アプローチを上回る。
条件付きマスキング言語モデルの活用により、高品質な出力を得られる効果的な非自己回帰的生成が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。