QUICK REVIEW

[논문 리뷰] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

RJ Skerry-Ryan, Eric Battenberg|arXiv (Cornell University)|2018. 03. 24.

Speech Recognition and Synthesis참고 문헌 22인용 수 219

한 줄 요약

논문은 Tacotron에 학습된 참조-프로소디 인코더를 추가하여 발화 간 및 화자 간 프로소디를 전이하고 엔드-투-엔드 프로소디 제어를 가능하게 한다. 객관적 및 주관적 지표를 사용하여 단일- 및 다중 화자 Tacotron 모델로 평가한다.

ABSTRACT

We present an extension to the Tacotron speech synthesis architecture that learns a latent embedding space of prosody, derived from a reference acoustic representation containing the desired prosody. We show that conditioning Tacotron on this learned embedding space results in synthesized audio that matches the prosody of the reference signal with fine time detail even when the reference and synthesis speakers are different. Additionally, we show that a reference prosody embedding can be used to synthesize text that is different from that of the reference utterance. We define several quantitative and subjective metrics for evaluating prosody transfer, and report results with accompanying audio samples from single-speaker and 44-speaker Tacotron models on a prosody transfer task.

연구 동기 및 목표

음향 신호에서 잠재 프로소디 표현을 학습하여 명시적 주석 없이 프로소디 모델링을 동기화한다.
Tacotron에 참조 인코더를 추가하여 프로소디를 포착하고 발화 간 및 화자 간 전송을 가능하게 한다.
정량적 지표와 인간 평가를 통해 단일 및 다중 화자 설정에서 접근법을 평가한다.
프로소디 임베딩이 화자 아이덴티티와 프로소디 전이 품질에 미치는 영향을 조사한다.

제안 방법

참조 음향 신호를 고정 길이의 프로소디 임베딩(dP=128, tanh 활성화)으로 처리하는 참조 인코더를 추가하여 Tacotron을 조건화한다.
6층 합성곱 참조 인코더 뒤에 GRU를 두어 고정 길이 프로소디 임베딩을 얻는다.
Tacotron 디코더를 텍스트 표현, 화자 임베딩, 그리고 프로소디 임베딩의 연결(concatenation)을 통해 조건화한다.
명시적 프로소디 감독 없이 Tacotron 재구성 손실로 끝-to-end로 학습하여 컴팩트한 프로소디 병목을 학습한다.
주된 결과는 고정 길이 임베딩에 초점을 두고 있지만 추가적인 어텐션 헤드를 가진 시퀀스 기반(가변 길이) 프로소디 표현을 탐구할 수 있으며, 선택적으로 탐구한다.

실험 결과

연구 질문

RQ1참조 오디오에서 추출된 학습된 프로소디 임베딩이 Tacotron 생성 음성의 프로소디를 재현하고 전이할 수 있는가?
RQ2Tacotron을 학습된 프로소디 공간으로 조건화하면 이해 가능성이 보존되면서 화자 간 프로소디 전이가 가능해지는가?
RQ3프로소디 임베딩의 크기와 활성화가 참조에서 출력으로의 전이 품질과 정보 흐름에 어떤 영향을 미치는가?

주요 결과

Voice	Model	Reference	MCD 13	FFE	Subjective
Single-speaker	baseline	same speaker	10.63	53.2%
Single-speaker	tanh-128	same speaker	7.92	28.1%	1.611±0.164
Single-speaker	baseline	unseen speaker	11.22	59.6%
Single-speaker	tanh-128	unseen speaker	8.89	38.0%	1.465±0.132
Multi-speaker	baseline	same speaker	9.93	48.5%
Multi-speaker	tanh-128	same speaker	6.99	27.5%	1.307±0.127
Multi-speaker	baseline	seen speaker	12.37	64.2%
Multi-speaker	tanh-128	seen speaker	9.51	37.1%	0.871±0.138
Multi-speaker	baseline	unseen speaker	11.84	60.0%
Multi-speaker	tanh-128	unseen speaker	10.87	41.3%	1.146±0.246

프로소디 전이는 단일- 및 다중 화자 Tacotron 모델 전반에서 참조 프로소디로부터의 정렬을 향상시키며, 참조 인코더가 없는 기준선과 비교했을 때 더 잘 맞춘다.
객관적 지표 (MCD 및 FFE)가 테스트 조건에서 기준선보다 참조 인코더를 사용할 때 훨씬 낮다.
주관적 anchored prosody discrimination은 tanh-128 병목을 사용할 때 참조 프로소디에 더 높은 유사성을 보이며, 화자 구성에 따라 baseline보다 높다.
참조 화자가 대상과 다르더라도, unseen 화자를 포함해 프로소디가 전이될 수 있으며 음높이 및 타이밍의 충실도에 중요한 영향을 준다.
병목 크기 증가가 일반적으로 프로소디 재생성(MCD, FFE)을 개선하는 경향이 있지만, softmax 병목은 tanh 기반 병목보다 부족하다.
프로소디와 화자 아이덴티티 사이의 얽힘(entanglement)이 존재하며, 참조-프로소디오가 때로는 지각된 화자 특성을 지배한다는 증거가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.