Skip to main content
QUICK REVIEW

[논문 리뷰] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

Yuxuan Wang, Daisy Stanton|arXiv (Cornell University)|2018. 03. 23.
Speech Recognition and Synthesis참고 문헌 21인용 수 474
한 줄 요약

GSTs(글로벌 스타일 토큰)은 Tacotron과 함께 학습되는 학습 가능한 임베딩 은행으로, 라벨 없이 다양한 말투를 포착하여, 라벨 없는 데이터의 소음에도 강건한 스타일 제어 및 전송을 가능하게 하며 TTS에서 스타일 제어 및 전송을 가능하게 한다.

ABSTRACT

In this work, we propose "global style tokens" (GSTs), a bank of embeddings that are jointly trained within Tacotron, a state-of-the-art end-to-end speech synthesis system. The embeddings are trained with no explicit labels, yet learn to model a large range of acoustic expressiveness. GSTs lead to a rich set of significant results. The soft interpretable "labels" they generate can be used to control synthesis in novel ways, such as varying speed and speaking style - independently of the text content. They can also be used for style transfer, replicating the speaking style of a single audio clip across an entire long-form text corpus. When trained on noisy, unlabeled found data, GSTs learn to factorize noise and speaker identity, providing a path towards highly scalable but robust speech synthesis.

연구 동기 및 목표

  • 엔드투엔드 TTS에서 표현적 음성 억양의 모델링 및 제어를 자극한다.
  • 레이블이 없는 메커니즘으로 말하기 스타일을 표현하고 제어하는 Global Style Tokens를 도입한다.
  • Tacotron 기반 TTS에서 스타일 제어, 전송 및 노이즈가 있는 라벨 없는 데이터에 대한 강건성을 시연한다.
  • GST가 스타일 변환 및 스타일 모핑에 사용할 수 있는 해석 가능한 스타일 임베딩을 생성한다.

제안 방법

  • 스타일 토큰 은행과 어텐션 모듈이 포함된 참조 인코더를 Tacotron에 통합하여 스타일 임베딩을 생성한다.
  • 명시적 프소도 라벨 없이 reconstruction 손실만으로 GST를 Tacotron 모델과 함께 공동 학습한다.
  • GST의 가중합으로 Tacotron 텍스트 인코더를 조건화하여 매 타임스텝마다 프소도를 영향을 준다.
  • 추론 시 제어를 가능하게 하기 위해 (i) 특정 토큰으로 조건화, (ii) 스타일 전송을 위한 오디오 참조로 조건화, 또는 (iii) 참조 없이 토큰만으로 사용한다.
  • 다중 헤드 어텐션을 사용하여 토큰 가중치를 계산하고, 스타일 제어를 위한 토큰 스케일링, 샘플링 및 형태를 연구한다.

실험 결과

연구 질문

  • RQ1GST가 명시적 프소도 라벨 없이 다양하고 해석 가능한 발화 스타일을 학습할 수 있는가?
  • RQ2GST가 엔드투엔드 TTS에서 효과적인 스타일 제어 및 스타일 전송을 가능하게 하는가?
  • RQ3GST가 노이즈가 있는 라벨 없는 데이터에 대해 강건하며 소음과 화자 신원을 해리할 수 있는가?
  • RQ4자연스러움과 이해도 측면에서 GST와 기본 Tacotron 및 참조 임베딩 접근법 간의 차이는 무엇인가?
  • RQ5GST가 비병렬 스타일 전송 및 교차 도메인 스타일 적응(예: 언어 전이)을 지원하는가?

주요 결과

  • GST는 토큰 간 F0 및 에너지와 같은 프소도 특성과 상관관계가 있는 해석 가능한 스타일 임베딩을 생성한다.
  • 단일 토큰이 말하기 속도, 감정 등 여러 속성을 인코딩할 수 있으며, 토큰 스케일링에 따라 효과가 예측 가능하게 확장된다.
  • GST는 비병렬 스타일 전송을 효과적으로 수행하고, 오디오북 스타일 음성에 대해 주관적 평가에서 Tacotron 기반 비교대상보다 우수하다.
  • 노이즈가 있는 수집 데이터로 학습된 GST는 노이즈와 화자 요인을 서로 다른 토큰으로 분리하여 충분한 토큰을 사용할 때 다양한 노이즈 수준에서도 MOS가 약 4.0에 달하는 강건한 합성을 가능하게 한다.
  • GST 임베딩은 노이즈 및 화자 신원에 대한 판별 정보를 포착하여 노이즈 분류 정확도 99.2%를 달성하고 TED 데이터에서 i-벡터를 사용한 화자 식별 분류에서도 경쟁력을 보이는 성능을 보인다.
  • 다양한 참조 길이 및 토큰 수에서 스타일 전송이 여전히 강건하며, 사이드 바이 사이드 테스트에서 GST 출력이 기준선보다 선호되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.