QUICK REVIEW

[논문 리뷰] Emotional End-to-End Neural Speech Synthesizer

Younggun Lee, Azam Rabiee|arXiv (Cornell University)|2017. 11. 15.

Speech Recognition and Synthesis참고 문헌 8인용 수 58

한 줄 요약

본 논문은 Tacotron에 감정 임베딩과 학습 기법을 추가하여 감정적 음성을 합성하고, 노출 편향(exposure bias)과 어텐션 정합성을 해결하여 품질을 향상시킨다.

ABSTRACT

In this paper, we introduce an emotional speech synthesizer based on the recent end-to-end neural model, named Tacotron. Despite its benefits, we found that the original Tacotron suffers from the exposure bias problem and irregularity of the attention alignment. Later, we address the problem by utilization of context vector and residual connection at recurrent neural networks (RNNs). Our experiments showed that the model could successfully train and generate speech for given emotion labels.

연구 동기 및 목표

Tacotron를 기반으로 한 감정 조건부 엔터투엔드 TTS 모델을 도입한다.
노출 편향과 어텐션 불일치를 해결하여 긴 프레임 음성 생성 품질을 향상시킨다.
학습된 감정 임베딩을 사용해 미리 정의된 여러 감정의 음성 생성을 가능하게 한다.

제안 방법

Tacotron의 attention 및 decoder RNN에 학습된 감정 임베딩을 주입한다.
디코딩 중 단조로운 정합을 강제하기 위해 단조 어텐션(monotonic attention)을 적용한다.
디코더 입력으로 ground-truth 프레임과 예측 프레임을 혼합하는 반-교사 강제 학습(semi-teacher-forced training)을 사용한다.
어텐션 RNN 입력에 컨텍스트 벡터 c_{t-1}를 도입하여 정합을 안내한다.
현재 단계 정보를 보존하고 정합을 선명하게 하기 위해 CBHG 텍스트 인코더에 잔여 연결(residual connection)을 추가한다.

실험 결과

연구 질문

RQ1Tacotron에 통합된 감정 임베딩이 감정적으로 색채가 있는 음성을 생성할 수 있는가?
RQ2단조 어텐션을 강제하고 반-교사 강제 학습을 적용하는 것이 어텐션 정합성 및 음성 품질을 향상시키는가?
RQ3컨텍스트 벡터와 CBHG 잔여 연결이 감정 TTS의 정합 안정성 및 명료성을 향상시키는가?

주요 결과

감정 Tacotron은 지정된 감정 라벨을 담은 음성을 생성할 수 있다.
단조 어텐션은 원래 Tacotron보다 더 깔끔하고 안정적인 어텐션 정합으로 이어진다.
반-교사 강제 학습은 노출 편향을 완화하고 오차 누적을 줄이는 데 도움을 준다.
컨텍스트 벡터와 잔여 CBHG 연결을 도입하면 더 선명하고 신뢰할 수 있는 어텐션 정합이 얻어진다.
모델은 한국어 데이터셋에서 6개의 감정 범주와 약 21시간의 음성(텍스트, 오디오, 감정 라벨)으로 학습되었다.
저자들은 어텐션 정합의 선명도와 음성 품질 사이의 상관관계를 관찰했고, 생성된 음성에 대한 질적 결과와 GitHub 자원을 제시했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.