QUICK REVIEW

[논문 리뷰] Multi-reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis

Yanyao Bian, Changbin Chen|arXiv (Cornell University)|2019. 04. 04.

Speech Recognition and Synthesis참고 문헌 14인용 수 42

한 줄 요약

Tacotron에 다중 참조 인코더를 도입하고 intercross training으로 해석, 전이 및 여러 음성 스타일 클래스를 독립적으로 제어합니다. 개별 서브-인코더를 통해 화자, 감정, 프로소디 및 기타 스타일을 독립적으로 제어하는 것을 시연합니다.

ABSTRACT

Speech style control and transfer techniques aim to enrich the diversity and expressiveness of synthesized speech. Existing approaches model all speech styles into one representation, lacking the ability to control a specific speech feature independently. To address this issue, we introduce a novel multi-reference structure to Tacotron and propose intercross training approach, which together ensure that each sub-encoder of the multi-reference encoder independently disentangles and controls a specific style. Experimental results show that our model is able to control and transfer desired speech styles individually.

연구 동기 및 목표

다중 음성 스타일 클래스의 독립적 제어를 가능하게 하여 표현적 TTS를 자극한다.
distinct한 스타일 클래스를 개별적으로 모델링하기 위해 다중 참조 인코더 구조를 제안한다.
스타일 인코더 간의 해리(해체)를 강제하기 위해 인터크로스 트레이닝을 도입한다.
훈련의 안정화와 스타일 임베딩 간의 직교성(orthogonality)을 장려하기 위한 보조 작업을 추가한다.
단일 및 다중 참조 설정에서 스타일 해리, 전이 및 제어를 실험적으로 시연한다.

제안 방법

N개의 GST 서브-인코더로 구성된 다중 참조 인코더를 갖춘 GST-Tacotron을 확장한다.
각 서브-인코더는 참조 인코더와 멀티-헤드 어텐션을 사용하여 스타일 임베딩을 생성한다.
각 서브-인코더가 특정 스타일 클래스를 나타내도록 하여 해리화를 강제한다(Equation 1).
복구 과정 중 후방 확률을 교환하기 위해 Intercross Training(IT)을 적용한다(Equations 2-5).
스타일 공간의 독립성을 촉진하기 위해 선택적 보조 작업: 스타일 분류 손실과 직교성 손실을 도입한다(Equation 7).
스타일 해리, 전이 및 스타일 임베딩 간 보간에 대한 추론 절차를 제공한다(Equations 8-9).

실험 결과

연구 질문

RQ1다중 참조 인코더가 다중 음성 스타일 클래스를 독립적인 표현으로 해리해낼 수 있는가?
RQ2인터크로스 트레이닝이 스타일 해리, 전이 및 독립적 제어를 강건하게 가능하게 하는가?
RQ3스타일 임베딩을 보간하여 화자 및 프로소디 같은 속성을 부드럽게 제어할 수 있는가?
RQ4다중 참조 접근법을 사용하여 새로운 화자에 대해 원샷 또는 소샷 스타일 전이가 가능한가?
RQ5보조 작업(분류 및 직교성)이 훈련을 안정화하고 해리화를 개선하는가?

주요 결과

다중 참조 모델은 의도된 스타일 클래스에 따라 스타일 임베딩이 군집화되어 해리의 효과를 나타낸다.
인터크로스 트레이닝은 병렬이 아닌 스타일 전이를 가능하게 하고 문자 길이와 자연스러움을 유지하며 단일 참조 기초 대비 전이 품질을 향상시킨다.
스타일 임베딩은 선형 보간을 부드럽게 지원하여 화자와 프로소디 특성을 독립적으로 제어할 수 있다.
서브-인코더 간의 임베딩은 각각의 스타일 클래스에 따라 군집화되어 다중 참조 설정에서 독립적 제어를 시연한다.
이 접근법은 소샷 및 원샷 화자 변환을 지원하며, 새 화자에 대한 파인튜닝으로 높은 수락률을 달성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.