QUICK REVIEW

[論文レビュー] Style Transfer in Text: Exploration and Evaluation

Zhenxin Fu, Xiaoye Tan|arXiv (Cornell University)|Nov 18, 2017

Topic Modeling参考文献 31被引用数 29

ひとこと要約

本稿では、平行データが存在しない状況下で、敵対的訓練を用いてコンテンツとスタイルの表現を分離する手法として、マルチデコーダー型とスタイル埋め込み型の2つの深層学習モデルを提案する。また、本稿では、転送強度とコンテンツ保持率という2つの新しい評価指標を導入しており、後者は人間の判断と高い相関を示し、論文の見出しや感情の転送といったタスクにおける効果的なコンテンツ保持とスタイル転送を裏付けている。

ABSTRACT

Style transfer is an important problem in natural language processing (NLP). However, the progress in language style transfer is lagged behind other domains, such as computer vision, mainly because of the lack of parallel data and principle evaluation metrics. In this paper, we propose to learn style transfer with non-parallel data. We explore two models to achieve this goal, and the key idea behind the proposed models is to learn separate content representations and style representations using adversarial networks. We also propose novel evaluation metrics which measure two aspects of style transfer: transfer strength and content preservation. We access our models and the evaluation metrics on two tasks: paper-news title transfer, and positive-negative review transfer. Results show that the proposed content preservation metric is highly correlate to human judgments, and the proposed models are able to generate sentences with higher style transfer strength and similar content preservation score comparing to auto-encoder.

研究の動機と目的

テキストスタイル転送における平行コーパスの不足に応じ、非平行データからの学習を可能にする。
スタイル転送のための信頼性の高い評価指標を開発し、転送強度とコンテンツ保持率に焦点を当てる。
敵対的訓練とマルチタスク学習を用いて、コンテンツとスタイルの表現を分離するモデル設計を行う。
実世界のスタイル転送タスク（論文見出し転送と感情転送）におけるモデルのベンチマークを実施する。
今後の研究を支援するため、公開可能なデータセットを提供する。

提案手法

共有エンコーダーがコンテンツを捉え、複数のデコーダーが異なるスタイルで出力を生成するマルチデコーダー型seq2seqモデルを提案。
コンテンツ表現と学習可能なスタイル埋め込みを連結し、デコーディング前に統合するスタイル埋め込みモデルを導入。
コンテンツ表現がスタイルに依存しないように保証するため、敵対的ネットワークを用いて表現の不変性を確保する。
共有パラメータとタスク固有パラメータを併用するマルチタスク学習により、コンテンツとスタイルの表現学習を同時に最適化する。
スタイルを識別する分類器ヘッドに敵対的損失を適用し、コンテンツ表現がスタイル情報を含まないことを保証する。
文の埋め込み類似度に基づくコンテンツ保持度指標を採用し、人間の判断と照合して妥当性を検証した。

実験結果

リサーチクエスチョン

RQ1平行訓練データが存在しない状況下でも、効果的なテキストスタイル転送が達成可能か？
RQ2テキスト表現におけるコンテンツとスタイルを効果的に分離できるか？
RQ3正解リファレンスが存在しない状況下で、転送強度とコンテンツ保持率を信頼性高く測定できる評価指標は何か？
RQ4マルチデコーダー型とスタイル埋め込み型という異なるモデルアーキテクチャは、スタイル転送タスクにおいて性能と汎化性でどのように比較できるか？
RQ5提案された評価指標は、人間の判断とどの程度相関しているか？

主な発見

提案されたコンテンツ保持度指標は、人間の判断と高い相関を示し、自動評価指標としての信頼性が裏付けられた。
スタイル埋め込みモデルは、ハイパーパramータの設定に関わらず、コンテンツ保持度0.89～0.95、転送強度0.2～0.6を達成し、多様な設定で優れた性能を示した。
マルチデコーダー型モデルは、スタイル埋め込みモデルに比べて高い転送強度を達成したが、コンテンツ保持度は低かった。これは、アーキテクチャ設計におけるトレードオフを示している。
ポジティブ・ネガティブレビュー転送タスクにおいて、マルチデコーダー型モデルが転送強度およびコンテンツ保持度の両面でスタイル埋め込みモデルを上回った。評価プロットでは、赤線（マルチデコーダー）が緑線（スタイル埋め込み）の上に位置していた。
コンテンツ保持の下限値は、論文見出しタスクで0.609、感情タスクで0.863と推定されたが、両モデルともに著しくこの下限値を上回っており、効果的なコンテンツ保持が確認された。
定性的な分析から、オートエンコーダーは同一の出力を生成する一方で、提案手法は主にキーワードやフレーズの変更によりスタイルを変更しながら、大部分のコンテンツを保持していることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。