[論文レビュー] A Probabilistic Formulation of Unsupervised Text Style Transfer
この論文は、非平行コーパスを部分的に観測された平行コーパスとして扱い、言語モデル事前分布を用いたエンコーダ–デコーダ系を訓練するためのアモルタイズド変分推論を用いた深層潜在系列モデルを提案し、複数のスタイル転換タスクで最先端の結果を達成し、非監視型機械翻訳性能でも競争力を示す。
We present a deep generative model for unsupervised text style transfer that unifies previously proposed non-generative techniques. Our probabilistic approach models non-parallel data from two domains as a partially observed parallel corpus. By hypothesizing a parallel latent sequence that generates each observed sequence, our model learns to transform sequences from one domain to another in a completely unsupervised fashion. In contrast with traditional generative sequence models (e.g. the HMM), our model makes few assumptions about the data it generates: it uses a recurrent language model as a prior and an encoder-decoder as a transduction distribution. While computation of marginal data likelihood is intractable in this model class, we show that amortized variational inference admits a practical surrogate. Further, by drawing connections between our variational objective and other recent unsupervised style transfer and machine translation techniques, we show how our probabilistic view can unify some known non-generative objectives such as backtranslation and adversarial loss. Finally, we demonstrate the effectiveness of our method on a wide range of unsupervised style transfer tasks, including sentiment transfer, formality transfer, word decipherment, author imitation, and related language translation. Across all style transfer tasks, our approach yields substantial gains over state-of-the-art non-generative baselines, including the state-of-the-art unsupervised machine translation techniques that our approach generalizes. Further, we conduct experiments on a standard unsupervised machine translation task and find that our unified approach matches the current state-of-the-art.
研究の動機と目的
- 非生成的手法を統一・改善するための principled な確率的アプローチを提案する。
- 二つのドメインからの非平行コーパスを部分的に観測された平行コーパスとして扱い、ドメイン間の転写学習を可能にする。
- 事前学習済み言語モデルの事前分布とアモルタイズド変分推論を組み込み、扱いやすい surrogate objective(ELBO)を最適化するエンコーダ–デコーダ転写モデルを開発する。
- 確率的目的とバック翻訳/対立的スタイルの目的の関係を調査し、さまざまなスタイル転換タスクでの性能を評価する。
- 提案手法が最先端の非生成ベースラインより大きな改善をもたらし、関連タスクで非監視MTベースラインと同等以上の結果を達成することを示す。
提案手法
- ビットекст(ビットテキスト)とドメインを結ぶ潜在的平行文を持つ深い潜在系列モデルを定義する。
- 二つの転写分布 p(x|bar{y}) および p(y|bar{x}) を、エンコーダ–デコーダモジュールとドメイン固有の事前言語モデルでパラメータ化する。
- 推論ネットワーク q(bar{y}|x) および q(bar{x}|y) を用いてELBOを最大化するアモルタイズド変分推論を適用し、生成モデルとパラメータを共有する。
- 二つの転送方向のパラメータを結合し、転送方向を指定するドメイン埋め込み機構を組み込む。
- 潜在的な周辺尤度を扱うために確率的勾配推定(潜在再構成のストップグラデーション法を用いる)を適用し、必要に応じて Gumbel-Softmax や REINFORCE の派生を利用する。再構成には貪欲デコードを優先する。
- 早期安定化のため自己再構成損失を初期化に用い、局所最適解の悪化を防ぐ。
実験結果
リサーチクエスチョン
- RQ1完全に確率的な定式化は、既存の非生成的手法を超えて非監視テキストスタイル転換アプローチを統一・改善できるか。
- RQ2潜在的ビットテキストを含むアモルタイズド変分推論は、クロスドメインテキスト転写モデルの訓練に実用的で効果的な目的関数を提供するか。
- RQ3提案モデルは、感情、フォーマリティ、著者模倣、解読、関連言語翻訳などのタスクで、最先端の非監視スタイル転換および非監視機械翻訳ベースラインとどう比較されるか。
- RQ4パラメータ共有、勾配伝播戦略、エントロピー正則化がモデル性能に及ぼす影響はどのようか。
- RQ5統一的な確率的見方は、標準的な非監視MTベンチマークで競争力のある結果を再現できるか。
主な発見
| タスク | モデル | 精度 | BLEU | 自己BLEU | PPL_D1 | PPL_D2 |
|---|---|---|---|---|---|---|
| Sentiment | Test Set | - | - | - | 31.97 | 21.87 |
| Shen et al. (2017) | - | 79.50 | 6.80 | 12.40 | 50.40 | 52.70 |
| Hu et al. (2017) | - | 87.70 | - | 65.60 | 115.60 | 239.80 |
| Yang et al. (2018) | - | 83.30 | 13.40 | 38.60 | 30.30 | 42.10 |
| UNMT | - | 87.17 | 16.99 | 44.88 | 26.53 | 35.72 |
| BT+NLL | - | 88.36 | 12.36 | 31.48 | 8.75 | 12.82 |
| Ours | - | 87.90 | 18.67 | 48.38 | 27.75 | 35.61 |
| Formality | Test Set | - | - | - | 71.30 | 135.50 |
| UNMT | - | 78.06 | 16.11 | - | 26.70 | 10.38 |
| BT+NLL | - | 82.43 | 8.57 | - | 6.57 | 8.21 |
| Ours | - | 80.46 | 18.54 | - | 22.65 | 17.23 |
| Author Imitation | Test Set | - | - | - | 132.95 | 85.25 |
| UNMT | - | 80.23 | 7.13 | - | 40.11 | 39.38 |
| BT+NLL | - | 76.98 | 10.80 | - | 61.70 | 65.51 |
| Ours | - | 81.43 | 10.81 | - | 49.62 | 44.86 |
- 提案手法は、感情、フォーマリティ、著者模倣、解読タスクにおいて、強力な非生成ベースラインより高い reference-BLEU を示す。
- 非監視MTベンチマークでは、現在の最先端の非生成システムと同等またはそれを上回る。
- KL項におけるエントロピー系正則化は、退化的で過信的な転写を防ぐことで性能を改善する。
- 二つの転送方向間のパラメータ共有と共有エンコーダは安定性と結果を改善する;共有を外すと出力が大きく悪化する。
- 潜在変数の貪欲勾配推定はバイアス-分散の有利なトレードオフを提供し、この設定でより複雑な勾配推定器より優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。