[논문 리뷰] A Probabilistic Formulation of Unsupervised Text Style Transfer
논문은 비병렬 말뭉치를 부분적으로 관찰된 병렬 코퍼스로 간주하는 심층 잠재 시퀀스 모델을 사용해 비지도 텍스트 스타일 전환을 수행하고, 어모터라이즈된 변분 추론을 통해 언어 모델 사전 정보를 사용하는 인코더–디코더 시스템을 학습시켜 여러 스타일 전환 작업에서 최첨단 성능과 비교적도 높은 비지도 기계 번역 성능을 달성한다.
We present a deep generative model for unsupervised text style transfer that unifies previously proposed non-generative techniques. Our probabilistic approach models non-parallel data from two domains as a partially observed parallel corpus. By hypothesizing a parallel latent sequence that generates each observed sequence, our model learns to transform sequences from one domain to another in a completely unsupervised fashion. In contrast with traditional generative sequence models (e.g. the HMM), our model makes few assumptions about the data it generates: it uses a recurrent language model as a prior and an encoder-decoder as a transduction distribution. While computation of marginal data likelihood is intractable in this model class, we show that amortized variational inference admits a practical surrogate. Further, by drawing connections between our variational objective and other recent unsupervised style transfer and machine translation techniques, we show how our probabilistic view can unify some known non-generative objectives such as backtranslation and adversarial loss. Finally, we demonstrate the effectiveness of our method on a wide range of unsupervised style transfer tasks, including sentiment transfer, formality transfer, word decipherment, author imitation, and related language translation. Across all style transfer tasks, our approach yields substantial gains over state-of-the-art non-generative baselines, including the state-of-the-art unsupervised machine translation techniques that our approach generalizes. Further, we conduct experiments on a standard unsupervised machine translation task and find that our unified approach matches the current state-of-the-art.
연구 동기 및 목표
- 비지도 텍스트 스타일 전환에 대해 기존의 비생성(non-generative) 방법을 통합하는 원리적 확률적 접근법의 필요성을 제시한다.
- 두 도메인에서의 비병렬 코퍼스를 부분적으로 관찰된 병렬 코퍼스로 간주하여 도메인 간 전이 학습을 가능하게 한다.
- 사전에 학습된 언어 모델 사전과 어모터라이즈드 변분 추론을 갖춘 인코더–디코더 전이 모델을 개발하고 tractable surrogate objective(ELBO)를 최적화한다.
- 확률적 목적과 역번역/적대적 스타일 목적 간의 연관성을 조사하고 다양한 스타일 전환 작업에서 성능을 평가한다.
- 제안한 접근법이 최첨단 비생성 기준선 대비 substantial gains를 보이고 관련 작업에서 비지도 MT 기준선에 비해 견고한 성과를 달성하는지 확인한다.
제안 방법
- 두 도메인을 연결하는 잠재 병렬 문장을 가진 비트텍스트용 심층 잠재 시퀀스 모델을 정의한다.
- 암시된 x|bar{y}와 y|bar{x}의 두 전이 분포를 인코더–디코더 모듈과 도메인별 사전 학습 언어 모델 사전으로 매개변수화한다.
- 추론 네트워크 q(bar{y}|x)와 q(bar{x}|y)가 생성 모델과 파라미터를 공유하는 ELBO를 최대화하도록 어모터라이즈드 변분 추론을 적용한다.
- 전이 방향 두 개의 파라미터를 묶고 전달 방향을 지정하는 도메인 임베딩 메커니즘을 도입한다.
- 잠재 재구성에 대한 stop-gradient 방식의 불가능한 주변 우도 문제를 해결하기 위해 확률적 경사 추정치를 사용하고 필요에 따라 Gumbel-Softmax 또는 REINFORCE 변형을 적용하며 재구성에 대해 탐욕적 디코딩을 선호한다.
- 초기 학습의 안정화를 위해 자기 재구성 손실(self-reconstruction loss)을 사용하여 로컬 최적화 실패를 방지한다.
실험 결과
연구 질문
- RQ1완전한 확률적 형식이 기존의 비생성 방법보다 비지도 텍스트 스타일 전환 접근법을 통합하고 개선할 수 있는가?
- RQ2막대의 잠재 비텍스트 구축과 함께 어모터라이즈드 변분 추론이 도메인 간 텍스트 전이 모델 학습에 실용적이고 효과적인 목적성을 제공하는가?
- RQ3제안된 모델은 감성, 형식성, 저자 모방, 해독, 관련 언어 번역 등의 작업에서 최신 비지도 스타일 전환 및 비지도 기계 번역 기준선과 비교하여 어떤 성능 차이를 보이는가?
- RQ4모수 공유, 그래디언트 전파 전략, 엔트로피 규제의 모델 성능에 미치는 영향은 무엇인가?
- RQ5통합된 확률적 관점이 표준 비지도 MT 벤치마크에서 경쟁력 있는 결과를 재현할 수 있는가?
주요 결과
| 작업 | 모델 | 정확도 | BLEU | Self-BLEU | PPL_D1 | PPL_D2 |
|---|---|---|---|---|---|---|
| Sentiment | Test Set | - | - | - | 31.97 | 21.87 |
| Shen et al. (2017) | - | 79.50 | 6.80 | 12.40 | 50.40 | 52.70 |
| Hu et al. (2017) | - | 87.70 | - | 65.60 | 115.60 | 239.80 |
| Yang et al. (2018) | - | 83.30 | 13.40 | 38.60 | 30.30 | 42.10 |
| UNMT | - | 87.17 | 16.99 | 44.88 | 26.53 | 35.72 |
| BT+NLL | - | 88.36 | 12.36 | 31.48 | 8.75 | 12.82 |
| Ours | - | 87.90 | 18.67 | 48.38 | 27.75 | 35.61 |
| Formality | Test Set | - | - | - | 71.30 | 135.50 |
| UNMT | - | 78.06 | 16.11 | - | 26.70 | 10.38 |
| BT+NLL | - | 82.43 | 8.57 | - | 6.57 | 8.21 |
| Ours | - | 80.46 | 18.54 | - | 22.65 | 17.23 |
| Author Imitation | Test Set | - | - | - | 132.95 | 85.25 |
| UNMT | - | 80.23 | 7.13 | - | 40.11 | 39.38 |
| BT+NLL | - | 76.98 | 10.80 | - | 61.70 | 65.51 |
| Ours | - | 81.43 | 10.81 | - | 49.62 | 44.86 |
- 제안된 방법은 감성, 형식성, 저자 모방, 해독 등의 작업에서 강력한 비생성 기준선보다 더 높은 reference-BLEU를 달성한다.
- 비지도 MT 벤치마크에서 이 접근법은 현재의 최첨단 비생성 시스템과 동등하거나 이를 능가한다.
- KL 항의 엔트로피 기반 규제자는 발현된 불확실성으로 인한 비정상적이고 과도하게 확신하는 전이를 방지함으로써 성능을 향상시킨다.
- 두 전달 방향 간의 파라미터 공유와 공유 인코더가 안정성과 결과를 향상시키며, 공유를 제거하면 출력이 크게 악화된다.
- 잠재 변수에 대한 탐욕적 그래디언트 추정은 바이어스-분산의 우호적인 트레이드를 제공하며 이 설정에서 더 복잡한 그래디언트 추정기들보다 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.