Skip to main content
QUICK REVIEW

[論文レビュー] Non-Autoregressive Translation with Layer-Wise Prediction and Deep Supervision

Chenyang Huang, Hao Zhou|arXiv (Cornell University)|Oct 14, 2021
Natural Language Processing Techniques被引用数 23
ひとこと要約

本稿では、段階的予測とディープスーパービジョンを用いて翻訳品質を向上させる非自己回帰的TransformerモデルであるDSLPを提案する。この手法は、4つのベンチマークのうち3つで自己回帰モデルを上回る最先端の性能を達成するとともに、推論速度を14.8倍に高速化した。

ABSTRACT

How do we perform efficient inference while retaining high translation quality? Existing neural machine translation models, such as Transformer, achieve high performance, but they decode words one by one, which is inefficient. Recent non-autoregressive translation models speed up the inference, but their quality is still inferior. In this work, we propose DSLP, a highly efficient and high-performance model for machine translation. The key insight is to train a non-autoregressive Transformer with Deep Supervision and feed additional Layer-wise Predictions. We conducted extensive experiments on four translation tasks (both directions of WMT'14 EN-DE and WMT'16 EN-RO). Results show that our approach consistently improves the BLEU scores compared with respective base models. Specifically, our best variant outperforms the autoregressive model on three translation tasks, while being 14.8 times more efficient in inference.

研究の動機と目的

  • 推論速度を犠牲にせずに、ニューラル機械翻訳における品質と効率のトレードオフを改善する非自己回帰モデルの向上を目的とする。
  • すべてのトークンを並列に生成する標準の非自己回帰Transformerの限界を克服する。これは、逐次的補正がなく、一貫性のないまたは繰り返しの多い出力を引き起こす。
  • 各デコーダー層に予測を導入することで、モデルの補正を向上させ、中間予測がその後続層の改善に寄与するようにする。
  • ディープスーパービジョンとミックスドトレーニングを適用することで、訓練の安定性と性能を向上させる。この際、中間予測は一部を正解トークンで補完する。
  • 複数の基本非自己回帰モデル(vanilla NAT、CMLM、GLAT、CTC)を用いた多様な翻訳タスクにおいて、フレームワークの汎用性と有効性を示す。

提案手法

  • 非自己回帰的Transformerに段階的予測を導入し、各デコーダー層がターゲット系列の予測を生成することで、ネットワークの深さに応じて段階的に改善を実現する。
  • 各デコーダー層が正解ターゲット系列を予測するように訓練することで、中間予測が根拠を持ち意味のあるものになるようにディープスーパービジョンを適用する。
  • 学習可能な混合比(0.3に設定)を用いて、正解トークンと段階的予測を組み合わせたミックスドトレーニング戦略を実装し、訓練の安定性と性能を向上させる。
  • 標準のTransformerアーキテクチャをバックボーンとし、中間予測を次の層に伝搬・利用できるように変更を加える。
  • 自己回帰的教師モデルから知識蒸留を用い、非自己回帰的生徒モデルの訓練をガイドすることで、整合性を高め、モード崩壊を低減する。
  • BPEトークニゼーションを用い、WMT’14 EN–DE、WMT’16 EN–ROおよびその逆方向を評価することで、堅牢性と一般化性能を検証する。

実験結果

リサーチクエスチョン

  • RQ1段階的予測とディープスーパービジョンは、推論速度を損なわせることなく、非自己回帰翻訳の品質を顕著に向上させることができるか?
  • RQ2デコーダー層全体にわたる中間予測の導入により、生成系列の整合性と一貫性が向上し、繰り返しの減少が達成されるか?
  • RQ3中間予測を一部正解トークンに置き換えるミックスドトレーニング戦略は、モデルの収束と最終的性能にどのように影響するか?
  • RQ4DSLPフレームワークは、標準の非自己回帰モデルおよびそれらの自己回帰的教師モデルを上回るBLEUスコアを達成しながら、高い推論効率を維持できるか?
  • RQ5提案手法は、CTC、GLAT、CMLMなどの異なる基本非自己回帰アーキテクチャおよび翻訳方向に一般化可能か?

主な発見

  • DSLPは、WMT’14 EN–DE、DE–EN、WMT’16 EN–RO、RO–ENの4つの翻訳タスクすべてで、それぞれのベースモデルを上回るBLEUスコアを安定して向上させた。その向上幅は、各タスクで1 BLEU点以上であった。
  • 混合トレーニングを用いたCTCベースのDSLP最良バージョンは、WMT’14 EN–DEで30.8のBLEUスコアを達成し、自己回帰的教師モデルの30.7を上回った。
  • 4つのベンチマークのうち3つにおいて、DSLPモデルはその自己回帰的教師モデルを上回った。これは、非自己回帰モデルが自己回帰ベースラインを凌駕する品質を達成できることを示している。
  • 自己回帰的教師モデルと比較して、推論速度が14.8倍に高速化されながらも、高い品質を維持した。
  • 語彙の繰り返し率は、初期層から最終層にかけて顕著に低下した(例:最終層では15%未満)。これは、深さに沿った層間補正が効果的に機能していることを確認している。
  • 混合比を0.3に設定したミックスドトレーニングが最適な性能をもたらした。一方、混合比を0に段階的に減少させると最終的な結果が劣化した。これは、訓練段階で部分的な正解補助が不可欠であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。