QUICK REVIEW

[論文レビュー] A Generalized Framework of Sequence Generation with Application to Undirected Sequence Models

Elman Mansimov, Alex Wang|arXiv (Cornell University)|May 29, 2019

Natural Language Processing Techniques参考文献 29被引用数 46

ひとこと要約

論文は、有向・無向のニューラル系列モデルのデコードを統一する一般化フレームワークを提案し、BERT のようなモデルからの定数時間かつ適応的な順序生成を可能にし、さまざまなデコード戦略を用いた WMT’14 En-De で競争力のある機械翻訳結果を示す。

ABSTRACT

Undirected neural sequence models such as BERT (Devlin et al., 2019) have received renewed interest due to their success on discriminative natural language understanding tasks such as question-answering and natural language inference. The problem of generating sequences directly from these models has received relatively little attention, in part because generating from undirected models departs significantly from conventional monotonic generation in directed sequence models. We investigate this problem by proposing a generalized model of sequence generation that unifies decoding in directed and undirected models. The proposed framework models the process of generation rather than the resulting sequence, and under this framework, we derive various neural sequence models as special cases, such as autoregressive, semi-autoregressive, and refinement-based non-autoregressive models. This unification enables us to adapt decoding algorithms originally developed for directed sequence models to undirected sequence models. We demonstrate this by evaluating various handcrafted and learned decoding strategies on a BERT-like machine translation model (Lample & Conneau, 2019). The proposed approach achieves constant-time translation results on par with linear-time translation results from the same undirected sequence model, while both are competitive with the state-of-the-art on WMT'14 English-German translation.

研究の動機と目的

無向のニューラル系列モデル（例：BERT）からのデコードを動機づけ、生成中心のフレームワークを形式化する。
長さ、座標（位置）選択、記号置換を分離して、有向モデルと無向モデルのデコードを統一する。
このフレームワーク内の特殊ケースとして、単調自己回帰、非自己回帰、半自己回帰デコードを導出する。
無向モデル向けの決定論的および学習型デコード戦略を開発・評価する。
自己回帰ベースラインと競合する性能を持つ定数時間デコードの variants を実証する。

提案手法

生成過程 G を Y^t, Z^t の中間系列とともに定義し、長さ予測 p(L|X)、座標選択 p(z^{t+1}_i|Y^{≤t},Z^t,X)、記号置換 p(y^{t+1}_i|Y^{≤t},Z^{t+1},X) によって p(G|X) をモデル化する。
単調自己回帰、非自己回帰の反復改良、半自己回帰デコードがこのフレームワークの特殊ケースであることを示す。
生起順序を適応させるために対数線形または学習済みの座標選択子を具体化し、負エントロピー、対数確率、位置バイアスなどの特徴を含む適応的な Gibbs サンプリング方式を含める。
ように一般化されたフレームワーク内で Gibbs サンプリングを適用して、長さ条件付きビーム探索による決定論的な「楽観的」デコードを実現する。
報酬を生成品質（編集距離の変化）に基づいて最大化するよう、強化学習（PPO）で座標選択ポリシーを訓練する。
masked translation model（事前学習済みの BERT 風）を用いた WMT’14 English-German 翻訳でデコード戦略を評価し、左から右への自己回帰ベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1無向の系列モデルからのデコードを、単一の生成中心フレームワークの下で有向モデルと統合できるか。
RQ2無向モデルにおける座標選択と記号置換戦略の違いが翻訳品質にどう影響するか。
RQ3BLEUと効率の観点から、無向モデルにおける決定論的デコードと学習型デコードのトレードオフは何か。
RQ4無向モデルからの定数時間デコードは、線形時間または自己回帰法と競争力のある性能を達成できるか。
RQ5適応的順序付け（左から右、外側から内側、学習ポリシー）が、マスクド言語モデルを用いる MT にとって有益な戦略として現れるか。

主な発見

このフレームワークは、自己回帰、非自己回帰、半自己回帰の複数のデコードパラダイムを単一の生成過程の下で統合する。
決定論的な座標選択戦略（左から右、最少から最大、易しさ優先、学習済み）は、均一な座標選択より最大約3 BLEU向上、En–DeおよびDe–En で。
ビームサーチは貪欲デコードより約1 BLEU向上。
自己回帰モデルによるリスコアリングで約1 BLEU 増加。
学習済みおよび左から右の戦略が最も強力な性能を提供し、左から右は MT タスクで 25.66 BLEU (En→De)、学習済みは 30.58 BLEU (De→En)。
予算 T と o_t 設定を用いた定数時間デコードは、線形時間デコードに匹敵し、最先端の自己回帰性能に近づく（例：De→En で特定設定時 30.13 vs 30.92 BLEU）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。