QUICK REVIEW

[논문 리뷰] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

Yuxuan Wang, Daisy Stanton|arXiv (Cornell University)|2018. 03. 23.

Speech Recognition and Synthesis참고 문헌 21인용 수 474

한 줄 요약

GSTs(글로벌 스타일 토큰)은 Tacotron과 함께 학습되는 학습 가능한 임베딩 은행으로, 라벨 없이 다양한 말투를 포착하여, 라벨 없는 데이터의 소음에도 강건한 스타일 제어 및 전송을 가능하게 하며 TTS에서 스타일 제어 및 전송을 가능하게 한다.

ABSTRACT

In this work, we propose "global style tokens" (GSTs), a bank of embeddings that are jointly trained within Tacotron, a state-of-the-art end-to-end speech synthesis system. The embeddings are trained with no explicit labels, yet learn to model a large range of acoustic expressiveness. GSTs lead to a rich set of significant results. The soft interpretable "labels" they generate can be used to control synthesis in novel ways, such as varying speed and speaking style - independently of the text content. They can also be used for style transfer, replicating the speaking style of a single audio clip across an entire long-form text corpus. When trained on noisy, unlabeled found data, GSTs learn to factorize noise and speaker identity, providing a path towards highly scalable but robust speech synthesis.

연구 동기 및 목표

엔드투엔드 TTS에서 표현적 음성 억양의 모델링 및 제어를 자극한다.
레이블이 없는 메커니즘으로 말하기 스타일을 표현하고 제어하는 Global Style Tokens를 도입한다.
Tacotron 기반 TTS에서 스타일 제어, 전송 및 노이즈가 있는 라벨 없는 데이터에 대한 강건성을 시연한다.
GST가 스타일 변환 및 스타일 모핑에 사용할 수 있는 해석 가능한 스타일 임베딩을 생성한다.

제안 방법

스타일 토큰 은행과 어텐션 모듈이 포함된 참조 인코더를 Tacotron에 통합하여 스타일 임베딩을 생성한다.
명시적 프소도 라벨 없이 reconstruction 손실만으로 GST를 Tacotron 모델과 함께 공동 학습한다.
GST의 가중합으로 Tacotron 텍스트 인코더를 조건화하여 매 타임스텝마다 프소도를 영향을 준다.
추론 시 제어를 가능하게 하기 위해 (i) 특정 토큰으로 조건화, (ii) 스타일 전송을 위한 오디오 참조로 조건화, 또는 (iii) 참조 없이 토큰만으로 사용한다.
다중 헤드 어텐션을 사용하여 토큰 가중치를 계산하고, 스타일 제어를 위한 토큰 스케일링, 샘플링 및 형태를 연구한다.

실험 결과

연구 질문

RQ1GST가 명시적 프소도 라벨 없이 다양하고 해석 가능한 발화 스타일을 학습할 수 있는가?
RQ2GST가 엔드투엔드 TTS에서 효과적인 스타일 제어 및 스타일 전송을 가능하게 하는가?
RQ3GST가 노이즈가 있는 라벨 없는 데이터에 대해 강건하며 소음과 화자 신원을 해리할 수 있는가?
RQ4자연스러움과 이해도 측면에서 GST와 기본 Tacotron 및 참조 임베딩 접근법 간의 차이는 무엇인가?
RQ5GST가 비병렬 스타일 전송 및 교차 도메인 스타일 적응(예: 언어 전이)을 지원하는가?

주요 결과

GST는 토큰 간 F0 및 에너지와 같은 프소도 특성과 상관관계가 있는 해석 가능한 스타일 임베딩을 생성한다.
단일 토큰이 말하기 속도, 감정 등 여러 속성을 인코딩할 수 있으며, 토큰 스케일링에 따라 효과가 예측 가능하게 확장된다.
GST는 비병렬 스타일 전송을 효과적으로 수행하고, 오디오북 스타일 음성에 대해 주관적 평가에서 Tacotron 기반 비교대상보다 우수하다.
노이즈가 있는 수집 데이터로 학습된 GST는 노이즈와 화자 요인을 서로 다른 토큰으로 분리하여 충분한 토큰을 사용할 때 다양한 노이즈 수준에서도 MOS가 약 4.0에 달하는 강건한 합성을 가능하게 한다.
GST 임베딩은 노이즈 및 화자 신원에 대한 판별 정보를 포착하여 노이즈 분류 정확도 99.2%를 달성하고 TED 데이터에서 i-벡터를 사용한 화자 식별 분류에서도 경쟁력을 보이는 성능을 보인다.
다양한 참조 길이 및 토큰 수에서 스타일 전송이 여전히 강건하며, 사이드 바이 사이드 테스트에서 GST 출력이 기준선보다 선호되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.