QUICK REVIEW

[論文レビュー] Multi-layer Representation Fusion for Neural Machine Translation

Qiang Wang, Fuxue Li|arXiv (Cornell University)|Feb 16, 2020

Natural Language Processing Techniques参考文献 27被引用数 46

ひとこと要約

この論文は、Transformer ベースの NMT において積み重ねられた全層を密に接続する多層表現融合（MLRF）を導入し、3つの融合関数を介して予測が下位レベルの表現を利用できるようにする。これにより BLEU の向上と正則化効果をもたらし、IWSLT German-English で新たな最先端を達成する。

ABSTRACT

Neural machine translation systems require a number of stacked layers for deep models. But the prediction depends on the sentence representation of the top-most layer with no access to low-level representations. This makes it more difficult to train the model and poses a risk of information loss to prediction. In this paper, we propose a multi-layer representation fusion (MLRF) approach to fusing stacked layers. In particular, we design three fusion functions to learn a better representation from the stack. Experimental results show that our approach yields improvements of 0.92 and 0.56 BLEU points over the strong Transformer baseline on IWSLT German-English and NIST Chinese-English MT tasks respectively. The result is new state-of-the-art in German-English translation.

研究の動機と目的

ニューラル機械翻訳における低層表現の利用を動機づけ、情報損失を減らし訓練を改善する。
すべての低層表現にアクセスする密に接続された融合機構を提案する。
効果的な融合のために3つの融合関数（avg-pooling、FNN、自己注意（ hops））を開発・比較する。
ドイツ語-日本語および中国語-日本語の翻訳タスクで強力な Transformer ベースのベースラインを上回る利得を示す。
埋め込みと注意ヒップの影響を含む正則化効果を示し、性能への影響を分析する。

提案手法

すべての積み重ねられた層に接続し、各ターゲット位置 j に対して融合表現 φ(Zj) を学習する融合層を導入する。
出力確率を top 層のみに依存させるのではなく φ(Zj) に依存させて再定式化する：Pr(yj|y<j,x)=Softmax(Wo·φ(Zj)+bo)。
3 つの融合戦略を比較する： (i) {zl j} の avg-pooling、 (ii) 結合後に FNN を通して d 次元の融合ベクトルを生成、(iii) 増強された層表現に対する多層ヒップ自己注意と層埋め込みを用いて 2D 表現を形成。
自己注意 with hops を探索し、層埋め込み El を各層表現 ˜zl= zl+El に追加し、2 層の FNN で注意エネルギーを計算してヒップごとの重みを得る。
エンコーダのみ、デコーダのみ、または両側での融合を許可し、安定した訓練のために融合層の後に層正規化を適用する。
3 層/6 層構成の Transformer ベースの NMT（ドイツ語-日本語および中国語-日本語）でアプローチをデモンストレーションし、BLEU の改善を報告する。

実験結果

リサーチクエスチョン

RQ1Dense にすべての低層表現を融合することは、Transformer ベースの NMT における top 層のみの予測より翻訳品質を改善するか？
RQ2どの融合関数（avg-pooling、FNN、自己注意）がより良い翻訳性能をもたらし、エンコーダ側・デコーダ側・双方での融合は影響するか？
RQ3自己注意ベースの融合におけるヒップの数と単語・層埋め込みの含有が性能と訓練安定性にどう影響するか？
RQ4MLRF は正則化効果をもち、深い NMT モデルの過適合を抑制するか？
RQ5マルチホップ融合を用いた層注意の定性的解釈はどうなるか？

主な発見

MLRF は Transformer ベースラインを改善し、IWSLT German-English で強力な Transformer ベースラインより 0.92 BLEU ポイントの向上を達成。
MLRF はベースラインより NIST Chinese-English 翻訳で 0.56 BLEU ポイントの改善を達成。
デコーダー側の融合は一般的にエンコーダー側の融合より上回り、双方での融合は融合関数に応じて追加の利得をもたらすことがある。
最良の構成はエンコーダー側で FNN ベースの融合、デコーダー側で自己注意ベースの融合を組み合わせた（Both-FNN-SA）、German-English で 3 層のベースラインを 0.92BLEU 上回る。
自己注意・マルチホップ融合（Dec-SA）は一貫した利得を提供し、ホップ数をある点まで増やすと（nhop < 6）性能が向上する一方、それを超えると収益が低下することを示す。
アプローチは正則化効果を示し、基準と比較して過学習を抑制する（訓練/検証ダイナミクスとドロップアウト解析によって示される）。
層注意の可視化は、ほとんどの予測で高レベルの層にヒップが焦点を合わせ、後のヒップでは層全体に注意が広がり、各ヒップが捉える異なる側面を反映している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。