QUICK REVIEW

[論文レビュー] Non-Autoregressive Neural Machine Translation

Jiatao Gu, James Bradbury|arXiv (Cornell University)|Nov 7, 2017

Natural Language Processing Techniques参考文献 15被引用数 449

ひとこと要約

この論文は、Transformerに基づく非自己回帰翻訳モデル（NAT）を提案し、fertilitiesを潜在変数として並列に全出力を生成することで待機時間を大幅に削減しつつ、BLEUスコアは競争力を保持する。

ABSTRACT

Existing approaches to neural machine translation condition each output word on previously generated outputs. We introduce a model that avoids this autoregressive property and produces its outputs in parallel, allowing an order of magnitude lower latency during inference. Through knowledge distillation, the use of input token fertilities as a latent variable, and policy gradient fine-tuning, we achieve this at a cost of as little as 2.0 BLEU points relative to the autoregressive Transformer network used as a teacher. We demonstrate substantial cumulative improvements associated with each of the three aspects of our training strategy, and validate our approach on IWSLT 2016 English-German and two WMT language pairs. By sampling fertilities in parallel at inference time, our non-autoregressive model achieves near-state-of-the-art performance of 29.8 BLEU on WMT 2016 English-Romanian.

研究の動機と目的

オートレグレッシブデコーダを超えるニューラル機械翻訳におけるより高速な推論の必要性を動機付ける。
並列デコードを可能にするfertility-based latent variablesを用いた非自己回帰Transformer（NAT）を提案する。
多様性問題に対処するためのシーケンスレベル知識蒸留とファインチューニングを含む訓練戦略を示す。
IWSLT16 En–De および WMT En–De/En–Ro で待機時間の利点とともに経験的改善を示す。

提案手法

非自己回帰デコードをサポートするようにTransformerのエンコーダ/デコーダを修正し、fertility predictorを導入する。
ソーストークンがターゲット列へコピーされる方法を決定する潜在変数としてfertilitiesを導入する。
デコーダで非因果的自己注意と位置注意を使用して並列デコードを可能にする。
ターゲット多様性を減らすために高品質な自己回帰教師からのシーケンスレベル知識蒸留を適用する。
提案qを用いたfertilitiesと二項翻訳+fertility損失の変分様Objectiveで訓練する。オプションとして逆KLと蒸留項でファインチューニング。
推論時にはfertilities上でヒューリスティックデコード（argmax、平均、またはノイズ付き並列デコード）を用い、時に自己回帰教師でスコアリングする。

実験結果

リサーチクエスチョン

RQ1非自己回帰デコードは自己回帰モデルと同等のBLEUスコアを達成しつつ待機時間を著しく削減できるか。
RQ2fertilityベースの潜在変数はNATの多様性問題を緩和できるか。
RQ3どの訓練戦略（蒸留、ファインチューニング）がNATの性能と安定性を改善するか。
RQ4標準MTベンチマークでの経験的待機時間と精度のトレードオフはどうなるか。

主な発見

NATは待機時間の大幅な削減を達成（例として特定設定でデコード時間が39 ms、自己回帰デコードに対して最大15.6倍の速度up）。
fertilityベースのコピーと訓練強化により、NAT BLEUギャップは自己回帰教師と数ポイント縮まり、アブレーションで最大+4 BLEUポイントの改善。
ノイジー並列デコード（NPD）を複数のfertilityサンプルと組み合わせるとBLEUギャップが狭まり、WMT16 En–Roでは前状態のアートから0.2 BLEU以内に達する。
WMT14 En–DeおよびWMT16 En–Roで、蒸留とNPDを用いたNATは競争力のある性能を示し、自己回帰デコードより大きな待機時間優位を維持。
シーケンスレベル知識蒸留とファインチューニングを用いると、NATは自己回帰教師との性能ギャップの一部を縮める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。