Skip to main content
QUICK REVIEW

[論文レビュー] Neural Machine Translation in Linear Time

Nal Kalchbrenner, Lasse Espeholt|arXiv (Cornell University)|Oct 31, 2016
Natural Language Processing Techniques参考文献 10被引用数 317
ひとこと要約

ByteNet は、ソース解像度を保持し、変長シーケンスの動的展開を可能にする線形時間の1D拡張CNNエンコーダ-デコーダを導入し、文字レベルモデリングと英語-ドイツ語文字ベース翻訳で最先端の成果を達成します。

ABSTRACT

We present a novel neural network for processing sequences. The ByteNet is a one-dimensional convolutional neural network that is composed of two parts, one to encode the source sequence and the other to decode the target sequence. The two network parts are connected by stacking the decoder on top of the encoder and preserving the temporal resolution of the sequences. To address the differing lengths of the source and the target, we introduce an efficient mechanism by which the decoder is dynamically unfolded over the representation of the encoder. The ByteNet uses dilation in the convolutional layers to increase its receptive field. The resulting network has two core properties: it runs in time that is linear in the length of the sequences and it sidesteps the need for excessive memorization. The ByteNet decoder attains state-of-the-art performance on character-level language modelling and outperforms the previous best results obtained with recurrent networks. The ByteNet also achieves state-of-the-art performance on character-to-character machine translation on the English-to-German WMT translation task, surpassing comparable neural translation models that are based on recurrent networks with attentional pooling and run in quadratic time. We find that the latent alignment structure contained in the representations reflects the expected alignment between the tokens.

研究の動機と目的

  • シーケンス長に対して線形にスケールし、過度なメモリ保持を避けるニューラル翻訳モデルを動機づける。
  • 時間的構造を保持する解像度を保持するエンコーダ-デコーダ構造を開発する。
  • エンコーダ表現を可変長デコーダに結びつけるための動的展開を導入する。
  • 畳み込みにおけるダイレーションを用いて受容野を効率的に拡張する。
  • ByteNet を文字レベルの言語モデリングおよび文字対文字翻訳タスクで評価する。

提案手法

  • 解像度を保持するため、エンコーダ表現の上にCNNベースのエンコーダとCNNベースのデコーダを積み重ねる。
  • 固定されたエンコーダ表現境界から可変長の出力を生成するために動的展開を適用する。
  • 将来のターゲットトークンへのアクセスを防ぐためにデコーダの畳み込みをマスクする(因果マスキング)。
  • 受容野を効率的に拡張するためにダブリングする膨張率の畳み込みを使用する。
  • 層を残差ブロックで包み、ReLUベースまたは乗法単位、層正規化を用いる。
  • Adam最適化で学習し、言語モデリングはbits-per-character、翻訳はBLEUで評価する。

実験結果

リサーチクエスチョン

  • RQ1動的展開を用いた完全な畳み込みエンコーダ-デコーダが、線形時間の計算量を維持しつつ競争力のある翻訳品質を達成できるか?
  • RQ2ソース系列の解像度を保持し、膨張畳み込みを使用することは、翻訳における長距離依存性の効果的なモデリングを可能にするか?
  • RQ3文字レベルの言語モデリングにおける ByteNet の性能は、再帰モデルと比較してどうか?
  • RQ4英語→ドイツ語の文字レベル/文字ベース翻訳ベンチマークにおける ByteNet の翻訳性能向上はどの程度か?
  • RQ5学習された潜在的整列構造は、翻訳におけるトークンレベルの対応関係について何を示しているか?

主な発見

モデル入力出力WMT Test ’14WMT Test ’15
ByteNetcharchar23.7526.26
GNMT (RNN Enc-Dec Att)word-piecesword-pieces24.61
RNN Enc-Dec Att ( Chung et al., 2016b )BPEBPE19.9821.72
RNN Enc-Dec Att ( Chung et al., 2016b )charchar21.3323.45
  • ByteNet は文字レベルの言語モデリングで最先端を達成(Wikipedia で 1.31 bits/character)。
  • ByteNet は WMT NewsTest 2014 および 2015 の英語→ドイツ語の文字対文字翻訳で最先端BLEUスコアを達成(BLEU 23.75 および 26.26)。
  • WMT 2015 では、報告されたシステムの中で文字レベル翻訳の最良の公表結果を達成。
  • ByteNet は入力長と出力長に対して線形の実行時間を示し、解像度を保持するソース表現を維持する。
  • モデルは、期待されるトークン整列を反映する潜在的整列を表現に示す。
  • 再凖モデlと比較して、ByteNet は強力なベースラインを上回るか、同等でありつつ二次時間計算を回避する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。