QUICK REVIEW

[논문 리뷰] AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines

Yao Shi, Hui Bu|arXiv (Cornell University)|2020. 10. 22.

Speech Recognition and Synthesis참고 문헌 23인용 수 82

한 줄 요약

AISHELL-3은 중국어 문자와 pinyin 대본이 포함된 대규모 Mandarin 다성 음성 데이터셋(약 85시간, 218명 화자)과 제로샷 음성 복제를 가능하게 하는 화자 임베딩 피드백이 있는 기본 멀티-스피커 TTS 시스템을 제공합니다.

ABSTRACT

In this paper, we present AISHELL-3, a large-scale and high-fidelity multi-speaker Mandarin speech corpus which could be used to train multi-speaker Text-to-Speech (TTS) systems. The corpus contains roughly 85 hours of emotion-neutral recordings spoken by 218 native Chinese mandarin speakers. Their auxiliary attributes such as gender, age group and native accents are explicitly marked and provided in the corpus. Accordingly, transcripts in Chinese character-level and pinyin-level are provided along with the recordings. We present a baseline system that uses AISHELL-3 for multi-speaker Madarin speech synthesis. The multi-speaker speech synthesis system is an extension on Tacotron-2 where a speaker verification model and a corresponding loss regarding voice similarity are incorporated as the feedback constraint. We aim to use the presented corpus to build a robust synthesis model that is able to achieve zero-shot voice cloning. The system trained on this dataset also generalizes well on speakers that are never seen in the training process. Objective evaluation results from our experiments show that the proposed multi-speaker synthesis system achieves high voice similarity concerning both speaker embedding similarity and equal error rate measurement. The dataset, baseline system code and generated samples are available online.

연구 동기 및 목표

TTS 연구를 위한 크고 개방된 만다린 다성 음성 데이터셋을 제공한다.
성별, 연령, 억양 등 명시적 화자 속성을 가진 다성 TTS 시스템의 학습을 가능하게 한다.
화자 임베딩과 피드백 제약을 사용하는 기본 다성 TTS 시스템을 시연한다.
모델의 강건성 및 일반화를 향상시키기 위한 데이터 준비 및 증강 전략을 조사한다.
객관적 지표를 사용하여 화자 유사성 및 보지 않은 화자에 대한 일반화를 평가한다.

제안 방법

AISHELL-3 데이터세트를 85시간, 218명의 중국어 원어 화자, 88,035 녹음 및 중국어 문자와 pinyin 대본을 포함하여 도입한다.
발화자 독립적인 텍스트 프런트엔드와 발화자 인식 음향 모델(Tacotron-2 기반)으로 보이스 컨디셔닝을 위한 화자 인코더를 도입한다.
참조 화자 임베딩과 합성 화자 임베딩 간의 코사인 유사도 손실을 추가하여 화자 임베딩 피드백 제약을 통합한다.
고정 차원의 화자 임베딩을 얻기 위해 전역 평균-표준편차 풀링이 있는 ResNet 기반 화자 인코더를 사용한다.
정합성과 일반화를 개선하기 위해 운율 라벨링, 무음 제거, 긴 형식 문장 연결을 포함한 데이터 준비 기법을 적용한다.
관찰된 화자와 보지 못한 화자에서 화자 유사성의 객관적 지표(코사인 유사도, SV-EER)를 학습 및 평가한다.

실험 결과

연구 질문

RQ1AISHELL-3가 제로샷 음성 복제를 포함한 다성 Mandarin TTS 시스템의 효과적인 학습을 지원할 수 있는가?
RQ2화자 임베딩 피드백 제약이 보지 않은 화자에 대한 화자 유사성과 강건성에 어떤 영향을 미치는가?
RQ3Mandarin TTS에서 정합성, 운율, 장문 합성을 개선하는 데이터 준비 및 증강 전략은 무엇인가?
RQ4보지 않은 화자에 대해 영어 다성 말뭉치와 비교했을 때 기본 시스템은 얼마나 잘 일반화되는가?
RQ5합성된 만다린 음성에서 화자 유사성과 음성 아이덴티티를 반영하는 객관적 지표는 무엇인가?

주요 결과

AISHELL-3는 성별, 연령, 억양 주석과 중국어 문자 및 pinyin 대본이 포함된 218명의 화자의 85시간 만다린어 음성 데이터를 포함한다.
화자 인코더와 임베딩 피드백이 포함된 기본 다성 TTS 시스템(Tacotron-2)은 관찰된 화자와 보지 못한 화자에서 코사인 유사도와 SV-EER 지표로 높은 화자 유사성을 달성한다.
목표 평가에서 모델이 보지 못한 화자에 일반화할 때 화자 유사성을 유지하며, EER 변화가 이전의 영어 VCTK 기반 연구와 일치한다.
데이터 증강 및 전처리(운율 라벨링, 무음 제거, 장문 문장 연결)는 Tacotron-2 최적화 중 학습 효율성과 정합성을 개선한다.
모델은 동결된 화자 인코더와 코사인 유사도 손실 항을 사용하여 학습 중 음성 유사성을 강화하며(알파 = 1.0).
결과는 이전 VCTK 기반 연구와 일치하며 AISHELL-3 베이스라인이 강력한 다성 Mandarin 합성 및 제로샷 음성 복제를 지원함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.