QUICK REVIEW

[논문 리뷰] Uncovering Latent Style Factors for Expressive Speech Synthesis

Yuxuan Wang, RJ Skerry-Ryan|arXiv (Cornell University)|2017. 11. 01.

Speech Recognition and Synthesis참고 문헌 13인용 수 44

한 줄 요약

이 논문은 엔드 투 엔드 TTS 모델 내에서 학습된 잠재 변수인 스타일 토큰을 도입하여 원시 음성 데이터에서 무 supervision으로 프로소디컬 스타일 요소를 탐지한다. Tacotron에 스타일 어텐션 메커니즘을 추가함으로써 모델은 레이블이 없는 상태에서 전반적인 프로소디컬 변동(예: 음고, 리듬, 감정 유사 신호)을 분리하고 제어할 수 있게 되었으며, 학습된 스타일 임베딩을 통해 일관되고 제어 가능한 표현적 음성 합성을 실현한다.

ABSTRACT

Prosodic modeling is a core problem in speech synthesis. The key challenge is producing desirable prosody from textual input containing only phonetic information. In this preliminary study, we introduce the concept of "style tokens" in Tacotron, a recently proposed end-to-end neural speech synthesis model. Using style tokens, we aim to extract independent prosodic styles from training data. We show that without annotation data or an explicit supervision signal, our approach can automatically learn a variety of prosodic variations in a purely data-driven way. Importantly, each style token corresponds to a fixed style factor regardless of the given text sequence. As a result, we can control the prosodic style of synthetic speech in a somewhat predictable and globally consistent way.

연구 동기 및 목표

텍스트만으로는 프로소디컬 변동을 포괄할 수 없는 엔드 투 엔드 텍스트 투 스피치 시스템에서 표현적 프로소디를 모델링하는 데 도전하는 것.
수동 레이블링이 필요 없이 원시 음성 데이터에서 분리되고 해석 가능한 프로소디컬 스타일 요소를 탐지하는 것.
학습된 스타일 토큰에 조건을 줌으로써 추론 중에 명시적이고 전역적인 프로소디 제어를 가능하게 하는 것.
시퀀스 투 시퀀스 프레임워크에서 재구성 손실을 통해 순수하게 무 supervision 방식으로 스타일 토큰을 학습할 수 있음을 보여주는 것.
스타일 토큰이 입력 텍스트와 독립적으로 고유하고 일관된 프로소디컬 스타일을 나타내는지 확인하는 것.

제안 방법

모든 입력 시퀀스에 공유되는 K개의 학습 가능한 스타일 토큰을 갖는 스타일 인코더를 도입하여 잠재 스타일 표현을 제공한다.
텍스트 어텐션 메커니즘과 병렬로 스타일 인코더의 출력을 참조하는 별도의 스타일 어텐션 메커니즘을 Tacotron 아키텍처에 통합한다.
각 디코더 단계에서 텍스트 및 스타일 컨텍스트 벡터의 기여도를 동적으로 조절하기 위해 가중치를 조절하는 가중치 조절기(시그모이드 출력을 갖는 단일 레이어 MLP)를 통해 두 벡터를 결합한다.
스펙트로그램 출력에 대한 재구성 손실만을 사용하여 전체 모델을 엔드 투 엔드로 훈련함으로써 스타일 토큰의 무 supervision 학습을 가능하게 한다.
선택된 스타일 토큰의 임베딩을 스타일 임베딩 매트릭스에 브로드캐스트하거나, 여러 스타일 임베딩을 선형으로 보간함으로써 추론 중 프로소디 제어를 가능하게 한다.
어텐션 혼합 가중치를 시각화하여 합성 과정에서 모델이 콘텐츠(텍스트)와 스타일(토큰) 모델링 간에 어떻게 번갈아가며 처리하는지 분석한다.

실험 결과

연구 질문

RQ1레이블 없이도 원시 음성 데이터에서 프로소디컬 잠재 스타일 요소를 탐지할 수 있는가?
RQ2학습된 스타일 토큰이 음고 범위, 리듬, 감정 톤과 같은 해석 가능한 일관된 프로소디컬 변동을 나타내는가?
RQ3추론 중에 스타일 토큰을 사용해 전역적이고 텍스트 독립적인 프로소디 제어가 가능한가?
RQ4어텐션 기반 메커니즘이 프로소디컬 요소의 분리와 영리한 스타일 조합을 어떻게 가능하게 하는가?
RQ5어텐션 가중치의 동역학에 따라 모델이 콘텐츠와 스타일 모델링을 번갈아가며 처리하는지 여부는 어떻게 확인할 수 있는가?

주요 결과

모델은 원형으로 확인된 오디오 데모와 F0 트레이젝터리 분석을 통해 고음고, 로봇성, 산만한 발화와 같은 해석 가능한 프로소디컬 스타일을 나타내는 10개의 고유한 스타일 토큰을 성공적으로 학습하였다.
부드럽게 처리된 F0 트레이젝터리 분석 결과, 스타일 토큰 9는 일관되게 높은 음고를 생성하는 반면, 토큰 8은 평탄하고 낮은 음고의 출력을 내는 것으로 확인되어 스타일 특성에 따라 프로소디컬 특성이 뚜렷하게 나타남을 입증하였다.
텍스트와 스타일 어텐션 간의 혼합 가중치는 음성의 세그멘탈 경계와 시간적으로 일치함을 보여주어, 모델이 합성 과정에서 콘텐츠와 스타일 처리를 번갈아가며 수행하고 있음을 시사한다.
동일한 스타일 토큰을 사용할 경우 다른 문장들 간에도 일관된 프로소디 패턴이 유지됨으로써, 스타일 토큰이 입력 텍스트와 독립적으로 작용함을 입증하였다.
스タイル 임베딩 브로드캐스트 또는 보간을 통해 프로소디 제어가 가능해져 사용자가 원하는 표현적 특성을 가진 음성을 생성할 수 있음을 보여주었다.
이 방법은 표준 평가 세트에서 평균 관점 점수 ~4.0을 기록하여 자연스러움이 높음을 확인하였으며, 추가적인 supervision 없이도 표현적 제어가 가능함을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.