[논문 리뷰] DurIAN: Duration Informed Attention Network For Multimodal Synthesis
DurIAN은 엔드투엔드 주의(attention)를 지속 시간 기반 정렬로 대체하는 지속 시간 정보 기반의 자가회귀식 텍스트-음성 합성 프레임워크를 제시하여 강건한 음성 및 동기화된 얼굴 표정을 가능하게 하며, 더 빠른 추론을 위한 다중 대역 WaveRNN을 제공합니다.
In this paper, we present a generic and robust multimodal synthesis system that produces highly natural speech and facial expression simultaneously. The key component of this system is the Duration Informed Attention Network (DurIAN), an autoregressive model in which the alignments between the input text and the output acoustic features are inferred from a duration model. This is different from the end-to-end attention mechanism used, and accounts for various unavoidable artifacts, in existing end-to-end speech synthesis systems such as Tacotron. Furthermore, DurIAN can be used to generate high quality facial expression which can be synchronized with generated speech with/without parallel speech and face data. To improve the efficiency of speech generation, we also propose a multi-band parallel generation strategy on top of the WaveRNN model. The proposed Multi-band WaveRNN effectively reduces the total computational complexity from 9.8 to 5.5 GFLOPS, and is able to generate audio that is 6 times faster than real time on a single CPU core. We show that DurIAN could generate highly natural speech that is on par with current state of the art end-to-end systems, while at the same time avoid word skipping/repeating errors in those systems. Finally, a simple yet effective approach for fine-grained control of expressiveness of speech and facial expression is introduced.
연구 동기 및 목표
- 엔드 투 엔드 주의 시스템에서 흔히 발생하는 인공음의 문제를 피하면서 강건하고 자연스러운 음성 합성을 목표로 한다.
- 지속 시간 정보를 활용한 정렬을 통해 음성 및 얼굴 표정을 공동으로 생성하고 동기화하는 다중모달 합성 프레임워크를 개발한다.
- prosodic 경계 인코딩 건너뛰기와 스킵 인코더를 통해 도메인 외 텍스트에 대한 로버스트니스를 개선한다.
- 쌍으로 된 데이터에 과도하게 의존하지 않고 음성 및 얼굴 표정의 미세한 표현력을 제어할 수 있도록 한다.
제안 방법
- Tacotron 계열 시스템의 엔드투엔드 주의를 지속 시간 정보에 기반한 정렬 모델로 대체한다(음소 지속 시간에서 파생).
- 경계 상태를 최종 인코더 출력에서 제외하고 음소 시퀀스와 계층적 프록시 경계 정보를 인코딩하기 위해 스킵 인코더를 사용한다.
- 예측된 음소 지속 시간에 의해 주도되는 상태 확장 메커니즘으로 인코더 상태를 음향 프레임과 정렬한다.
- 내용 기반 tanh 주의(attention)를 지속 시간에 맞춰 정렬된 인코더 상태에 고정하고 잔향을 위한 포스트-넷을 사용하는 디코더를 활용한다.
- 멀티모달 합성 스킴을 도입하여 음성은 멜-스펙트로그램으로, 얼굴 표정은 모델링된 파라미터로 처리하며, 지속 시간 모델 또는 다중 작업 학습으로 동기화한다.
- 8비트 양자화 및 대역 절단 샘플링을 적용한 멀티-밴드 WaveRNN을 도입하여 음질 저하 없이 CPU에서 실시간 또는 그보다 빠른 음성 생성 속도를 달성한다.]
- research_questions_list
- Can a duration-informed alignment model provide robustness and naturalness comparable to end-to-end attention-based TTS systems?
- How can prosodic boundary information improve generalization to out-of-domain text, especially for Chinese prosody?
- Can fine-grained style control be achieved under supervised labels by manipulating a learned style embedding?
- Does a multi-band WaveRNN approach speed up inference without sacrificing perceptual speech quality?
- Is it feasible to synchronize speech with facial expressions using a duration-based mechanism without requiring parallel speech-face data?
실험 결과
연구 질문
- RQ1Duration 정보를 활용한 정렬 모델이 엔드투엔드 주의 기반 TTS 시스템과 비교할 만큼의 로버스트니스와 자연스러움을 제공할 수 있는가?
- RQ2특히 중국어 운율에 대해 도메인 외 텍스트로의 일반화를 개선하기 위해 운율 경계 정보를 어떻게 활용할 수 있는가?
- RQ3학습된 스타일 임베딩을 조작하여 감독 하의 레이블에서 미세한 스타일 제어를 달성할 수 있는가?
- RQ4멀티-밴드 WaveRNN 접근 방식이 perceptual 음성 품질을 손상시키지 않으면서 추론 속도를 높이는가?
- RQ5지속 시간 기반 메커니즘으로 음성-얼굴 데이터를 병렬로 요구하지 않더라도 음성과 얼굴 표정의 동기화를 달성할 수 있는가?
주요 결과
- DurIAN은 MOS 평가에서 Tacotron-2에 필적하는 자연스러움을 달성하면서 엔드-투-엔드 주의 시스템에서 흔히 발생하는 단어 건너뛰기/반복의 문제를 피합니다.
- DurIAN은 알려지지 않은 1000개의 발화에서 0%의 단어 건너뛰기/반복 오류를 보이며 Tacotron-2보다 더 뛰어난 원칙적 견고성을 보여줍니다(베이스라인은 1–2%).
- 8비트 양자화를 통한 멀티-밴드 WaveRNN은 기본 대비 추론 속도를 2x–4x 증가시키며 품질 저하 없이 CPU에서 실시간 또는 그보다 빠른 생성이 가능합니다.
- 미세한 스타일 제어는 학습된 스타일 임베딩을 스케일링함으로써 음소 지속 시간과 음향 생성 모두에 영향을 주어 표현력 있는 음성을 제공합니다.
- 지속 시간 기반 동기화는 병렬 음성-얼굴 데이터 없이도 멀티모달 합성을 가능하게 하며, 데이터가 있을 때는 여전히 병렬 데이터를 허용합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.