Skip to main content
QUICK REVIEW

[論文レビュー] Formality Style Transfer with Hybrid Textual Annotations

Ruochen Xu, Tao Ge|arXiv (Cornell University)|Mar 15, 2019
Topic Modeling参考文献 12被引用数 31
ひとこと要約

本稿では、限定的な平行データと豊富なフォーマルリテラル分類済み非ペairedデータを組み合わせて、分類子ガイド付き損失と再構築損失を用いた双方向seq2seqモデルを用いるハイブリッド学習フレームワークを提案する。このアプローチは、フォーマルリテラル転送で最先端の性能を達成し、無教師感情転送タスクへも効果的に一般化する。

ABSTRACT

Formality style transformation is the task of modifying the formality of a given sentence without changing its content. Its challenge is the lack of large-scale sentence-aligned parallel data. In this paper, we propose an omnivorous model that takes parallel data and formality-classified data jointly to alleviate the data sparsity issue. We empirically demonstrate the effectiveness of our approach by achieving the state-of-art performance on a recently proposed benchmark dataset of formality transfer. Furthermore, our model can be readily adapted to other unsupervised text style transfer tasks like unsupervised sentiment transfer and achieve competitive results on three widely recognized benchmarks.

研究の動機と目的

  • 限定的な平行データと大規模なフォーマルリテラル分類済み非ペアデータを統合することで、フォーマルリテラル転送におけるデータ不足問題に対処すること。
  • 単一のエンコーダデコーダアーキテクチャを用いた双方向的スタイル転送により、モデルのデータ効率性と性能を向上させること。
  • 分類子ガイド付き損失と再構築損失を統合することで、訓練の安定性とコンテンツ保持性を向上させること。
  • 感情転送などの他の無教師テキストスタイル転送タスクへの一般化を可能にすること。
  • ベンチマークフォーマルリテラル転送データセットで最先端の性能を達成するとともに、強力なゼロショット転送能力を維持すること。

提案手法

  • 同一のエンコーダデコーダアーキテクチャを用いて、フォーマルから非フォーマル、および非フォーマルからフォーマルへの双方向的スタイル転送を実行する双方向seq2seqモデルを訓練する。
  • 翻訳損失(MLE)、自己再構築損失、サイクル再構築損失の複数の損失を共同最適化することで、コンテンツの保持を図る。
  • 別個のスタイル分類子が分類子ガイド付き損失を通じてフィードバックを提供し、モデルがターゲットフォーマルリテラルレベルを持つ出力を生成するように導く。
  • 自己再構築損失を用いて分類子ガイド付き損失を正則化することで、スタイル適応中にコンテンツ劣化を防ぐ。
  • 平行文ペアと非ペアでフォーマルリテラルラベルが付与された文の組み合わせを用いて、エンドツーエンドでフレームワークを訓練する。
  • 翻訳損失を削除し、再構築と分類子フィードバックに依存することで、無教師感情転送に本手法を適応する。

実験結果

リサーチクエスチョン

  • RQ1限定的でない平行データと非ペアでフォーマルリテラルラベルが付与されたデータを統合することで、統一されたモデルが双方向的フォーマルリテラル転送を効果的に学習できるか?
  • RQ2平行データが限られている状況で、フォーマルリテラル分類済みデータを統合することで性能がどの程度向上するか?
  • RQ3提案されたハイブリッドトレーニングフレームワークは、感情転送などの他の無教師スタイル転送タスクへどの程度一般化可能か?
  • RQ4分類子ガイド付き損失と再構築損失を統合することで、コンテンツ保持性とスタイル転送精度が向上するか?
  • RQ5各損失成分(翻訳損失、自己再構築損失、サイクル再構築損失、分類子ガイド付き損失)が全体のモデル性能に果たす相対的寄与度は何か?

主な発見

  • 提案モデルはフォーマルリテラル転送ベンチマークで最先端の性能を達成し、自動評価と人的評価の両方の指標で先行手法を上回った。
  • Yelp感情転送データセットではGスコア0.78を達成し、前回最良手法より幾何平均の精度とBLEUで5.2%高い結果を示した。
  • Amazon感情転送データセットでは、すべてのベースラインの中で最高のGLEUスコアを記録し、スタイル転送の正確性とスムーズさのバランスが優れていることを示した。
  • ImageCaptionデータセットに対しても効果的に一般化され、ロマンチックからユーモラス、およびユーモラスからロマンチックへの転送タスクで最高のGスコアを達成した。
  • アブレーションスタディの結果、分類子ガイド付き損失と再構築損失の組み合わせが性能向上に顕著に寄与しており、自己再構築損失がコンテンツ保持に不可欠であることが示された。
  • 限定的な平行データでの学習でも高いコンテンツ忠実度を維持でき、ハイブリッドアノテーション利用による強力なデータ効率性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。