QUICK REVIEW

[論文レビュー] Insertion Transformer: Flexible Sequence Generation via Insertion Operations

Mitchell Stern, William Chan|arXiv (Cornell University)|Feb 8, 2019

Natural Language Processing Techniques被引用数 162

ひとこと要約

この論文はInsertion Transformerを紹介します。任意の位置にトークンを挿入する柔軟なシーケンス生成器であり、シリアルおよびパラレルデコーディングを可能にし、訓練順序を多様化しつつ対数的な回数のデコード反復で競争力のある翻訳品質を達成します。

ABSTRACT

We present the Insertion Transformer, an iterative, partially autoregressive model for sequence generation based on insertion operations. Unlike typical autoregressive models which rely on a fixed, often left-to-right ordering of the output, our approach accommodates arbitrary orderings by allowing for tokens to be inserted anywhere in the sequence during decoding. This flexibility confers a number of advantages: for instance, not only can our model be trained to follow specific orderings such as left-to-right generation or a binary tree traversal, but it can also be trained to maximize entropy over all valid insertions for robustness. In addition, our model seamlessly accommodates both fully autoregressive generation (one insertion at a time) and partially autoregressive generation (simultaneous insertions at multiple locations). We validate our approach by analyzing its performance on the WMT 2014 English-German machine translation task under various settings for training and decoding. We find that the Insertion Transformer outperforms many prior non-autoregressive approaches to translation at comparable or better levels of parallelism, and successfully recovers the performance of the original Transformer while requiring only logarithmically many iterations during decoding.

研究の動機と目的

シーケンスモデリングにおける固定的な左から右への自己回帰生成の制限を動機づけ、解決する。
出力キャンバスの任意の場所にトークンを挿入できる挿入ベースの反復デコードフレームワークを提案する。
完全自己回帰（1回の挿入ずつ）および部分自己回帰（同時挿入）デコードの両方を実現する。
頑健性と効率を向上させる訓練順序（左から右、中央に焦点を置く重み付けを持つ二分木、均一/エントロピー最大化目的）を探る。
対数的デコード反復と並列デコード能力を持つWMT 2014英独で競争力のあるBLEU結果を示す。

提案手法

標準的な自己回帰デコードを、現在のキャンバスの任意の位置にトークンを追加する挿入操作に置き換える。
スロット表現を提供し、全デコーダ自己注意を用いてキャンバス全体を参照する修正されたTransformerデコーダを使用する。
content-location分布を(内容, 場所)の jointly あるいは因子化形( p(c|l), p(l) )としてモデル化する。
大規模出力空間に対処するため、文脈化された語彙バイアスと任意の混合ソフトマックスの導入を検討する。
訓練は順序依存の損失で行う：左から右、中央重視の重み付き二分木、または均一/最大エントロピー損失；終了処理（スロットまたはシーケンスの最終化）とEOSペナルティを含めて長さを制御する。
推論はGreedyデコードとスロット最終化の訓練時に可能な場合はスロット間の並列デコードをサポートし、好適な設定で対数的な反復回数を達成する。

実験結果

リサーチクエスチョン

RQ1挿入ベースの生成は、ARおよび非自己回帰翻訳品質と並列デコードの効率を両立できるか。
RQ2異なる訓練順序（左から右、平衡二分木、均一エントロピー）とアーキテクチャ変種は性能とデコード効率にどのように影響するか。
RQ3出力長を動的に成長させ、事前に固定ターゲット長を予測しなくてもよいか。
RQ4デコードと訓練のためのスロット最終化とシーケンス最終化の終端戦略のトレードオフは何か。
RQ5 parallale挿入はBLEU性能を損なうことなく、サブリニア( log2 n ) のデコード反復をどの程度達成できるか。

主な発見

モデル	BLEU	反復数
Autoregressive Transformer (Vaswani et al., 2017)	27.3	n
Semi-Autoregressive Left-to-Right (SAT)	24.83	n/6
Blockwise Parallel (Stern et al., 2018)	27.40	≈n/5
Non-Autoregressive NAT (Gu et al., 2018)	17.69	1
Iterative Refinement (Lee et al., 2018)	21.61	10
Insertion Transformer + Left-to-Right (Greedy)	23.94	n
Insertion Transformer + Binary Tree (Greedy)	27.29	n
Insertion Transformer + Uniform (Greedy)	27.12	n
Insertion Transformer + Binary Tree (Parallel)	27.41	≈log2 n
Insertion Transformer + Uniform (Parallel)	26.72	≈log2 n

Insertion TransformerはWMT 2014 English-GermanでTransformerレベルの性能に匹敵し、デコード反復は対数的回数で済む。
スロット最終化を用いた並列デコードはGreedyデコードと同等かそれよりやや高いBLEUを達成し、高度な並列生成が可能であることを示す。
distillationを伴う二分木損失は強力な結果を生み出し、Greedyデコード時の開発セットでBLEU 25.80、設定により25.80–27.29の範囲。
EOSペナルティは早期終了を防ぐことで性能を大幅に向上させる；適切に調整されたペナルティが設定によってBLEUを約4点程度引き上げることがある。
パラレルデコードスキームは理論的下限 ⌊log2 n⌋+1回の反復に近づき、実際には典型的な文の長さで約10回程度を超えることは少ない。
異なるアーキテクチャ変種（結合的content-locationモデルと条件付きcontent-locationモデル、文脈化語彙バイアス、Mixture-of-Softmaxes）はベースラインより僅かな改善を提供し、EOSの適切な調整後の利得は小さくなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。