QUICK REVIEW

[論文レビュー] Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine Translation

Jungo Kasai, Nikolaos Pappas|arXiv (Cornell University)|Jun 18, 2020

Natural Language Processing Techniques参考文献 50被引用数 31

ひとこと要約

この論文は、深いエンコーダと浅いデコーダを備えた自己回帰モデルが、同等の速度で強力な非自己回帰モデルを上回る可能性を示し、一般的なNAR評価の仮定に挑戦し、より公正なベンチマーク手法を提唱する。

ABSTRACT

Much recent effort has been invested in non-autoregressive neural machine translation, which appears to be an efficient alternative to state-of-the-art autoregressive machine translation on modern GPUs. In contrast to the latter, where generation is sequential, the former allows generation to be parallelized across target token positions. Some of the latest non-autoregressive models have achieved impressive translation quality-speed tradeoffs compared to autoregressive baselines. In this work, we reexamine this tradeoff and argue that autoregressive baselines can be substantially sped up without loss in accuracy. Specifically, we study autoregressive models with encoders and decoders of varied depths. Our extensive experiments show that given a sufficiently deep encoder, a single-layer autoregressive decoder can substantially outperform strong non-autoregressive models with comparable inference speed. We show that the speed disadvantage for autoregressive baselines compared to non-autoregressive methods has been overestimated in three aspects: suboptimal layer allocation, insufficient speed measurement, and lack of knowledge distillation. Our results establish a new protocol for future research toward fast, accurate machine translation. Our code is available at https://github.com/jungokasai/deep-shallow.

研究の動機と目的

速度測定、層割り当て、蒸留の実践を検討することによって、従来のNAR評価を問い直す。
自己回帰モデルにおいて深いエンコーダと浅いデコーダがより良い速度-品質のトレードオフを生み出すかを調べる。
現実的な速度指標を用いて、複数の言語方向にわたって自己回帰モデルと非自己回帰モデルを比較する。
公平な比較を可能にするため、ARとNARの双方のベースラインに対する知識蒸留の影響を評価する。

提案手法

S1（単一文翻訳）とSmax（大規模バッチ翻訳）の2つのスピード指標を分析し、異なるデプロイメントシナリオを反映させる。
ARおよびNARモデルの深いエンコーダ・浅いデコーダ構成を探索するため、エンコーダ深度Eとデコーダ深度Dを系統的に変化させる。
2つの反復的NARベースライン（CMLMとDisCo）と蒸留を伴う強力なARベースラインを用いて、速度品質の結果を比較する。
公平なベンチマークのため、ARとNARの両方のモデルにシーケンスレベルの知識蒸留を適用する。
完全並列化の下でのエンコーダ/デコーダ構成の理論的時間計算量分析を行う（Table 1の概念）。
さまざまなサイズのデータセット（WMT14/16/17）を用いて7つの翻訳方向で実験を行い、BLEU/SacreBLEUで評価する。

実験結果

リサーチクエスチョン

RQ1深いエンコーダと浅いデコーダは、強力な非自己回帰ベースラインに対して自己回帰モデルの速度品質のトレードオフを改善するか？
RQ2速度指標S1とSmaxが、特に大規模バッチで、AR対NARの認識上の優位性にどのように影響するか？
RQ3公平な比較におけるARとNARの両方のモデルに対する知識蒸留の影響は何か？
RQ4NARデコーダがターゲット語順を学習するためにより多くの層を必要とする理由は何か、設計上の選択で緩和できるか？
RQ5結論は複数の言語方向とデータ規模に対して頑健か？

主な発見

深いエンコーダと浅いデコーダを備えた自己回帰モデルは、標準の6-6 ARベースラインと同等のBLEUを達成できる一方で、S1が著しく高速になり、Smaxの速度も競争力を持つ。
反復的NARモデルは、同等のS1速度でBLEUが一般にARより劣り、大規模バッチではSmaxの速度向上が小さくなる。
NARデコーダは、順序が入れ替えられたデータの下で特に、語順を学習するためにより多くの層を必要とする。
知識蒸留はARとNARの双方に利益をもたらす。両方に公平に適用すると、AR-NARの精度差が拡大する。
ARの深-浅構成は、デコード時間を短縮し、バッチと蒸留設定下でNARよりも一貫して速度を向上させつつ精度を維持する。
本研究の知見は、層割り当て、蒸留、現実的な速度指標を強調する、高速MTシステムを評価するための改訂プロトコルを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。