Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Text Style Transfer via Iterative Matching and Translation.

Zhijing Jin, Di Jin|arXiv (Cornell University)|Jan 31, 2019
Topic Modeling参考文献 14被引用数 15
ひとこと要約

本稿では、非教師ありテキストスタイル変換手法を提案する。この手法は、ソーススタイルドメインとターゲットスタイルドメイン間の意味的に類似した文を繰り返しマッチングすることで擬似並列コーパスを構築し、その後、シーケンス・トゥ・シーケンスモデルを用いてスタイル変換を学習する。本アプローチは、アライメントと翻訳モデルの両方を繰り返し改善することで、センチメント変換およびフォーマリティ変換タスクで最先端の性能を達成する。

ABSTRACT

Text style transfer seeks to learn how to automatically rewrite sentences from a source domain to the target domain in different styles, while simultaneously preserving their semantic contents. A major challenge in this task stems from the lack of parallel data that connects the source and target styles. Existing approaches try to disentangle content and style, but this is quite difficult and often results in poor content-preservation and grammaticality. In contrast, we propose a novel approach by first constructing a pseudo-parallel resource that aligns a subset of sentences with similar content between source and target corpus. And then a standard sequence-to-sequence model can be applied to learn the style transfer. Subsequently, we iteratively refine the learned style transfer function while improving upon the imperfections in our original alignment. Our method is applied to the tasks of sentiment modification and formality transfer, where it outperforms state-of-the-art systems by a large margin. As an auxiliary contribution, we produced a publicly-available test set with human-generated style transfers for future community use.

研究の動機と目的

  • 並列学習データが存在しない非教師ありテキストスタイル変換の課題に対処すること。
  • 既存の分離ベース手法の限界を克服すること。これらの手法はしばしばコンテンツや文法の保持に失敗する。
  • 異なるスタイルドメイン間で意味的に類似した文を信頼性高くアライメントするデータ駆動型手法を構築すること。
  • 初期の擬似並列データの不完全さを是正するために、アライメントとスタイル変換モデルの両方を反復的に改善すること。
  • 将来のスタイル変換システムの評価を可能にするために、人間がアノテートした公開テストセットを提供すること。

提案手法

  • ソーススタイルコーパスとターゲットスタイルコーパス間で意味的内容が類似した文を特定・マッチングすることで、擬似並列コーパスを構築する。
  • 初期の擬似並列データ上で標準的なシーケンス・トゥ・シーケンスモデルを学習させ、スタイル変換関数を学習する。
  • 現在のモデルの予測結果を再評価することで、文のペアを再評価し、誤ったアライメントを検出・是正する。
  • 洗練されたアライメントデータ上で再トレーニングすることで、スタイル変換モデルを改善し、スムーズさとコンテンツ保持性を向上させる。
  • ドメイン間で高い意味的類似度を持つ候補文ペアを特定するため、リtrieバルベースのマッチング戦略を適用する。
  • 反復的改善を適用することで、誤り伝搬を段階的に低減し、モデルの一般化能力を向上させる。

実験結果

リサーチクエスチョン

  • RQ1並列アノテーションが存在しない状況でも、効果的に擬似並列コーパスを構築できるか?
  • RQ2アライメントとモデルパラメータの両方を反復的に改善することで、スタイル変換の性能がどのように向上するか?
  • RQ3本手法は、分離ベース手法と比較して、意味的コンテンツと文法的整合性をどの程度保持できるか?
  • RQ4本手法は、センチメント変換やフォーマリティ変換といった異なるスタイル変換タスクに一般化できるか?
  • RQ5人間による評価ベンチマークにおいて、本手法の性能は最先端のシステムと比較してどの程度か?

主な発見

  • 提案手法は、センチメント変更およびフォーマリティ変換タスクの両方で最先端の性能を達成した。
  • 反復的改善プロセスにより、ベースライン手法と比較してスムーズさとコンテンツ保持性の両方が顕著に向上した。
  • 本手法は、文法的整合性や意味的一致性に課題を抱えることがある分離ベース手法を上回った。
  • 研究者らは、人間が生成したスタイル変換を含む公開テストセットをリリースし、標準化された評価を可能にした。
  • 結果から、リソースが限られた環境下でも、洗練された擬似並列コーパスからの学習が、エンドツーエンドの分離手法よりも効果的であることが示された。
  • 本手法は多様なスタイル変換タスクにわたり高いロバスト性を示し、強力な一般化能力を有することがわかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。