QUICK REVIEW

[論文レビュー] Multiple-Attribute Text Style Transfer

Sandeep Subramanian, Guillaume Lample|arXiv (Cornell University)|Nov 1, 2018

Topic Modeling参考文献 47被引用数 52

ひとこと要約

論文は、コントロール可能なテキスト書き換えには分離化（disentanglement）は必須ではなく、バック-トランスレーションに基づくモデルを提案し、複数の属性を処理するプーリング機構を用いて内容の保持とスタイル変更をトレードオフする。

ABSTRACT

The dominant approach to unsupervised "style transfer" in text is based on the idea of learning a latent representation, which is independent of the attributes specifying its "style". In this paper, we show that this condition is not necessary and is not always met in practice, even with domain adversarial training that explicitly aims at learning such disentangled representations. We thus propose a new model that controls several factors of variation in textual data where this condition on disentanglement is replaced with a simpler mechanism based on back-translation. Our method allows control over multiple attributes, like gender, sentiment, product type, etc., and a more fine-grained control on the trade-off between content preservation and change of style with a pooling operator in the latent space. Our experiments demonstrate that the fully entangled model produces better generations, even when tested on new and more challenging benchmarks comprising reviews with multiple sentences and multiple attributes.

研究の動機と目的

テキストのスタイル転送において、分離された潜在表現が本質的に必要かどうかを調査する。
複数の属性を制御するための、バックトランスレーションを用いたシンプルでエンドツーエンドのモデルを提案する。
内容の保持とスタイルの修正をバランスさせるプーリング機構を導入する。
複数属性を持つ実用的な全文レビューとベンチマークデータセットで評価する。
よりリッチなマルチ属性データと人間評価を含む新しいベンチマーク設定を提供する。

提案手法

テキスト生成モデルを訓練するために、オンラインバックトランスレーションと組み合わせたデノイジング自己符号化損失を使用する。
明示的な敵対的分離化を回避し、代わりにデコーダが元の属性情報をターゲット属性で上書きするよう促す。
デコーダを、複数のターゲット属性の平均埋め込みをシーケンス開始記号として条件付ける。
エンコーダに時系列最大プーリングを適用し、プーリング窓 w を介して内容保持を制御する。
512隠れ層単位を持つ、2層BiLSTMエンコーダと2層注意機構を備えたエンコーダ-デコーダアーキテクチャを採用する。
fastText分類器を用いて属性を評価し、5-gramモデルの perplexity で流暢さを測定し、参照との自己BLEUおよびBLEUで内容を評価する。

実験結果

リサーチクエスチョン

RQ1コントロール可能なテキスト書き換えには分離化が必要か、それとも他の訓練目的で十分か。
RQ2バックトランスレーションと属性条件付けを組み合わせて、エンドツーエンドモデルでマルチ属性のスタイル転送を可能にできるか？
RQ3潜在空間でのプーリングは、内容保持とスタイル変更のトレードオフにどのように影響するか？
RQ4マルチ属性モデルは、複数属性を持つ現実的な全文レビューに一般化できるか？
RQ5属性制御、流暢さ、内容保持の評価において、自動指標は人間の判断とどのように比較されるか？

主な発見

分離化は、コントロール可能なテキスト書き換えに必須ではない。敵対的トレーニングなしのモデルでも強力な属性制御と内容保持を達成できる。
デノイジング自己符号化と属性条件付けを組み合わせたバックトランスレーションベースの目的は、感情とマルチ属性タスクにおける従来の研究と比較して競争力があり、場合によっては優れる結果を示す。
エンコーダの時系列プーリング機構は、内容保持とスタイル変更の可調整な制御を可能にする。
提案されたマルチ属性モデルは、自動指標で従来のベースラインを上回り、いくつかの設定で人間評価と一致する。
複数属性を持つ全文レビューへの拡張は、より困難なベンチマークを提供し、単一属性の文レベル評価の限界を露呈する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。