QUICK REVIEW

[論文レビュー] Fast Decoding in Sequence Models using Discrete Latent Variables

Łukasz Kaiser, Aurko Roy|arXiv (Cornell University)|Mar 9, 2018

Natural Language Processing Techniques参考文献 34被引用数 178

ひとこと要約

この論文は、ターゲット系列を短い離散潜在系列に自動符号化する潜在変圧器を導入し、並列デコードを可能にすることで、ニューラル機械翻訳において BLEU の競争力を保ちながらデコードを高速化する。

ABSTRACT

Autoregressive sequence models based on deep neural networks, such as RNNs, Wavenet and the Transformer attain state-of-the-art results on many tasks. However, they are difficult to parallelize and are thus slow at processing long sequences. RNNs lack parallelism both during training and decoding, while architectures like WaveNet and Transformer are much more parallelizable during training, yet still operate sequentially during decoding. Inspired by [arxiv:1711.00937], we present a method to extend sequence models using discrete latent variables that makes decoding much more parallelizable. We first auto-encode the target sequence into a shorter sequence of discrete latent variables, which at inference time is generated autoregressively, and finally decode the output sequence from this shorter latent sequence in parallel. To this end, we introduce a novel method for constructing a sequence of discrete latent variables and compare it with previously introduced methods. Finally, we evaluate our model end-to-end on the task of neural machine translation, where it is an order of magnitude faster at decoding than comparable autoregressive models. While lower in BLEU than purely autoregressive models, our model achieves higher scores than previously proposed non-autoregressive translation models.

研究の動機と目的

オート回帰系列モデルの高速デコードを動機づける。
ターゲット系列を圧縮するための離散潜在ボトルネックを提案する。
離散潜在を活用したエンドツーエンドで学習可能な潜在変圧器を開発する。
ニューラル機械翻訳で評価し、オート回帰および非オート回帰のベースラインと比較する。

提案手法

y を m < n に圧縮する離散潜在ボトルネック（Gumbel-Softmax、改善されたSemantic Hashing、VQ-VAE、分解型ベクトル量子化）を導入して l にエンコードする。
y を再構成するオートエンコーダー ae(y, x) で l を生成する潜在的予測子 lp(x) を用いて x から自動回帰的に l を生成し、直列的でなく並列に y を再構成するデコーダー ad(l, x) を組み合わせる Latent Transformer を訓練する。
自動回帰的潜在予測のための Transformer ベースの lp と、x および l を条件として並列に動作する ad デコーダーを使用する。
lr+llp という結合目的関数を最適化する。ここで lr はオートエンコーダの再構成損失、llp は潜在予測損失である。
大きな潜在アルファベットを管理し、コード語崩壊を避けるために、異なる離散化ボトルネックと DVQ の variants を試す。

実験結果

リサーチクエスチョン

RQ1離散潜在変数は、翻訳品質の大幅な低下を招くことなく、ターゲット系列を並列デコードするのに十分に圧縮できるか。
RQ2どの離散化ボトルネック（Gumbel-Softmax、改善された semantic hashing、VQ-VAE、DVQ および DVQ の variant）が NMT の速度と品質の最良のトレードオフをもたらすか。
RQ3Latent Transformer は BLEU とデコード待機遅延において、オート回帰および非オート回帰のベースラインとどのように比較されるか。

主な発見

Model	BLEU	Latency_b1 (ms)	Latency_b64 (ms)
LT Improved Semhash	19.8	105 ms	8 ms
LT VQ-VAE	2.78	148 ms	7 ms
LT s-DVQ	19.7	177 ms	7 ms
LT p-DVQ	19.8	182 ms	8 ms

Latent Transformer は翻訳タスクにおいて、オート回帰モデルよりも桁違いに高速なデコードを実現する。
DVQ または改善された Semantic Hashing を使用すると、並列デコードを高速化しつつ強力な BLEU を得られ、いくつかの設定で手動チューニングされた非オート回帰アプローチを上回る。
VQ-VAE 単独はこのタスクではパフォーマンスが低い一方、二段の分解 DVQ を用いると潜在の利用と性能が最大化される。
潜在系列の長さ n/m = 8 のとき、LT は BLEU が約 19.7–19.8 の範囲で、デコード待機遅延も競争力がある。
LT アプローチを用いた上位-k 翻訳のリスコアリングは、ビームサーチなしで自動回帰ベースラインとの差を縮める。
この手法は n/m の比率と潜在アルファベットサイズ K を調整することで、速度と精度のトレードオフを実現できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。