QUICK REVIEW

[論文レビュー] Minimizing the Bag-of-Ngrams Difference for Non-Autoregressive Neural Machine Translation

Chenze Shao, Jinchao Zhang|arXiv (Cornell University)|Nov 21, 2019

Natural Language Processing Techniques参考文献 37被引用数 42

ひとこと要約

非自己回帰NMT(NAT)を訓練するための微分可能なBag-of-N-grams (BoN)目的を提案し、ターゲット側の逐次依存性をより正確にモデル化し、特に長い文で翻訳品質を向上させることを目指す。

ABSTRACT

Non-Autoregressive Neural Machine Translation (NAT) achieves significant decoding speedup through generating target words independently and simultaneously. However, in the context of non-autoregressive translation, the word-level cross-entropy loss cannot model the target-side sequential dependency properly, leading to its weak correlation with the translation quality. As a result, NAT tends to generate influent translations with over-translation and under-translation errors. In this paper, we propose to train NAT to minimize the Bag-of-Ngrams (BoN) difference between the model output and the reference sentence. The bag-of-ngrams training objective is differentiable and can be efficiently calculated, which encourages NAT to capture the target-side sequential dependency and correlates well with the translation quality. We validate our approach on three translation tasks and show that our approach largely outperforms the NAT baseline by about 5.0 BLEU scores on WMT14 En$\leftrightarrow$De and about 2.5 BLEU scores on WMT16 En$\leftrightarrow$Ro.

研究の動機と目的

語レベルのクロスエントロピーと翻訳品質との相関が低い問題に対処することでNATを動機づける。
NATにおけるターゲット側の逐次依存をモデル化する微分可能なBoNベースの目的を導入する。
訓練速度を保つためにNAT内でBoNの効率的な計算手法を提供する。
BoNベースの訓練が複数の言語ペアで翻訳品質を改善することを示す。
BoNベースの手法は単独（ファインチューニング）で使用することも、クロスエントロピーと併用してエンドツーエンド訓練を行うこともできることを示す。

提案手法

離散文に対するBoNをn-gramのone-hotベクトルの和として定義する。
NATのBoNをすべての可能な翻訳に対するBoNの期待値として定義し、位置ごとの分解を効率的に可能にする。
NATの出力分布上で窓をスライドさせ、各位置のターゲットトークンが独立であると仮定してBoNの効率的な計算を導出する。
BoN損失をNATのBoNと参照BoNとのBoN- L1距離として提案し、参照BoNの稀疎性とBoN-θが多数の翻訳を総計する事実を活用する。
訓練目的を以下のように定式化する: BoN-FT (BoNファインチューニング), BoN-Joint (CEとBoN損失のα加重結合), BoN-Joint+FT (BoN-Jointの後にBoNファインチューニング)。
n-gramサイズ（n=1..4）とα値を用いてBLEUや全体性能との相関を研究する。

実験結果

リサーチクエスチョン

RQ1BoNベースのシーケンスレベルの目的はNATにおいてクロスエントロピーより翻訳品質とより良く相関するのか？
RQ2BoN訓練は過翻訳・欠翻訳・重複トークンといったNATの一般的なエラーを特に長い文で減らすのか？
RQ3BoNとCEの結合目的とBoNのみのファインチューニングをNATにおけるBLEUの上昇と訓練速度の観点で比較するとどうなるのか？
RQ4BoNの有効性に対する異なるn-gramサイズの影響はどのようになるのか？

主な発見

BoNベースの目的は翻訳品質との相関がクロスエントロピーより高く、特に長い文で顕著である。
BoN-FTは訓練を速く行いNAT-Baseを上回り、BLEUでReinforce-NATを上回ることが多い一方、訓練ははるかに速い。
BoN-JointはBoN-FTを大幅にBLEUで向上させ、BoN-Joint+FTは最大の利得を達成する（例: 彼らの設定ではWMT14 En↔Deで約5.0 BLEU、WMT16 En↔Roで2.5 BLEU程度）。
n>1のBoN（特にn=2）はn=1より相関とBLEU利得が大きく、短い逐次依存のモデリングの重要性を示す。
BoN法は長い文で特に反復トークンや過修正を減らすことを、後処理分析から示している。
BoN-Jointは一部のベースラインより収束が早く、微分可能なBoN目的により訓練速度を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。