Skip to main content
QUICK REVIEW

[論文レビュー] Levenshtein Transformer

Jiatao Gu, Changhan Wang|arXiv (Cornell University)|May 27, 2019
Natural Language Processing Techniques参考文献 19被引用数 186
ひとこと要約

Levenshtein Transformer (LevT) は挿入と削除の操作をデュアルポリシー、模倣学習フレームワークで組み合わせ、標準的なトランスフォーマーに比べて効率的な部分自回帰的シーケンス生成と改良を可能にする。

ABSTRACT

Modern neural sequence generation models are built to either generate tokens step-by-step from scratch or (iteratively) modify a sequence of tokens bounded by a fixed length. In this work, we develop Levenshtein Transformer, a new partially autoregressive model devised for more flexible and amenable sequence generation. Unlike previous approaches, the atomic operations of our model are insertion and deletion. The combination of them facilitates not only generation but also sequence refinement allowing dynamic length changes. We also propose a set of new training techniques dedicated at them, effectively exploiting one as the other's learning signal thanks to their complementary nature. Experiments applying the proposed model achieve comparable performance but much-improved efficiency on both generation (e.g. machine translation, text summarization) and refinement tasks (e.g. automatic post-editing). We further confirm the flexibility of our model by showing a Levenshtein Transformer trained by machine translation can straightforwardly be used for automatic post-editing.

研究の動機と目的

  • 挿入と削除操作に基づく新しいシーケンス生成モデルを導入する。
  • 翻訳・要約の基準Transformerと競合するか、それを上回る性能を達成する。
  • 並列可能な改良ステップによる効率的デコーディングを実現する。
  • 生成と改良を単一モデルに統合し、ポストエディティングや編集スタイルのタスクを支援する。
  • 挿入と削除の補完的性質を利用したデュアルポリシー模倣学習アルゴリズムを提案する。)

提案手法

  • モデルはデフォルトで重みを共有する3つのヘッド(削除、プレースホルダ挿入、トークン挿入)を持つTransformerをバックボーンとして用いる。
  • シーケンス編集は反復で進行:トークンを削除し、プレースホルダを挿入し、プレースホルダを新しいトークンで置換する、いずれも1回の反復内で並列に行う。
  • 訓練は模倣学習を用い、専門家ポリシー(オラクルまたは蒸留教師)を用いて削除と挿入の意思決定の対数尤度を最大化する(2つの目的)。
  • ロールインポリシーはノイズや敵対的出力を導入して訓練状態を多様化する(地上真実、モデル出力、専門家の訂正の混合)。
  • 推論は収束またはタイムアウトまで複数回の改良反復にわたり貪欲デコードを行う。終了にはループ検出と空のプレースホルダに対するペナルティが含まれる。)

実験結果

リサーチクエスチョン

  • RQ1挿入と削除の操作を統一モデルで組み合わせて、シーケンスの生成と改良を効果的に行えるか?
  • RQ2編集ベースのシーケンス生成器の訓練に対するデュアルポリシー模倣学習はどう機能するか?
  • RQ3LevT は自己回帰トランスフォーマーと同等の生成品質を達成しつつ、デコードの効率性向上を提供するか?
  • RQ4機械翻訳で訓練された LevT を翻訳ポストエディティングに直接適用できるか?

主な発見

DatasetMetricTransformerLevenshtein Transformer(ベスト)
Ro-EnBLEU31.6733.26
En-DeBLEU26.8927.27
En-JaBLEU42.8643.68
GigawordROUGE-137.3137.87
GigawordROUGE-218.1018.92
GigawordROUGE-L34.6535.13
  • LevT は機械翻訳およびテキスト要約において Transformer ベースラインと比較して同等またはそれ以上の BLEU/ROUGE スコアを達成する。
  • 並列可能な改良ステップにより、実際のデコード時間で最大約5倍の速度向上を達成する。
  • 3つのヘッド間のウェイト共有は一般に有益で、挿入関連ヘッドは共有表現から恩恵を受ける。
  • 対戦的ロールインを含むデュアルポリシー模倣学習は、普通のDAE様構成を超える訓練信号を改善する。
  • 機械翻訳で訓練した LevT は翻訳ポストエディティングに変更なしで適用可能(ゼロショット)であり、PE データでファインチューニングするとさらに改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。