QUICK REVIEW

[論文レビュー] NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Zeqian Ju, Yuancheng Wang|arXiv (Cornell University)|Mar 5, 2024

Speech Recognition and Synthesis被引用数 19

ひとこと要約

NaturalSpeech 3 は因子化ニューラルコーデック（FACodec）と因子化拡散モデルを導入し、ゼロショット TTS のために話者属性（継続時間、内容、韻律、音響詳細、音色）を分離して生成する。LibriSpeech のマルチスピーカーデータで最先端の品質と人間レベルの自然さを達成。

ABSTRACT

While recent large-scale text-to-speech (TTS) models have achieved significant progress, they still fall short in speech quality, similarity, and prosody. Considering speech intricately encompasses various attributes (e.g., content, prosody, timbre, and acoustic details) that pose significant challenges for generation, a natural idea is to factorize speech into individual subspaces representing different attributes and generate them individually. Motivated by it, we propose NaturalSpeech 3, a TTS system with novel factorized diffusion models to generate natural speech in a zero-shot way. Specifically, 1) we design a neural codec with factorized vector quantization (FVQ) to disentangle speech waveform into subspaces of content, prosody, timbre, and acoustic details; 2) we propose a factorized diffusion model to generate attributes in each subspace following its corresponding prompt. With this factorization design, NaturalSpeech 3 can effectively and efficiently model intricate speech with disentangled subspaces in a divide-and-conquer way. Experiments show that NaturalSpeech 3 outperforms the state-of-the-art TTS systems on quality, similarity, prosody, and intelligibility, and achieves on-par quality with human recordings. Furthermore, we achieve better performance by scaling to 1B parameters and 200K hours of training data.

研究の動機と目的

高品質なゼロショットTTSの課題に対処するため、話を内容、韻律、音色、音響詳細の別々の属性サブ空間へ分離する。
対応するプロンプトを条件とした各属性を生成する因子化拡散モデルを提案する。
最新のベースラインより音質、話者類似性、韻律、可聴性を改善し、マルチスピーカーデータで人間レベルの性能を達成することを示す。

提案手法

FACodec を導入し、内容、韻律、音響詳細のための因子化ベクトル量子化子とグローバルな音色ベクトルを取得する timbre extractor を用いる。
情報ボトルネック、監督付き、勾配反転、ディテールドロップアウトを用いて内容、韻律、音響詳細の分離性を改善する。
各属性サブ空間ごとにディスクリート拡散を用いて対応するプロンプトを条件とした継続時間、韻律、内容、音響詳細を独立に生成する因子化拡散モデルを、推論時にはクラスなしガイダンスを適用して開発する。
非自己回帰生成フレームワークを採用し、長さ優先の生成順序と長さレギュレータを用い、FACodec デコーダーによって波形を再構成する。
Librilight 60k 時間で訓練し、LibriSpeech test-clean および RAVDESS で韻律テストを評価し、CMOS、SMOS、SIM-O、SIM-R、WER、MCD、MCD-Acc を指標として使用。

実験結果

リサーチクエスチョン

RQ1話を分離されたサブ空間に因子化することは、ゼロショットTTS の品質、類似性、韻律を改善するのか。
RQ2因子化拡散生成アプローチは、品質と頑健性の点で従来の大規模TTS手法を上回り、多声データにおいて人間レベルの自然さを達成できるのか。

主な発見

モデル	学習データ	Sim-O ↑	Sim-R ↑	WER ↓	CMOS ↑	SMOS ↑
グラウンドトゥルース	-	-	-	-	+0.17	4.42
VALL-E	Librilight	-	-	6.11	-	3.46
VALL-E	Librilight	0.47	0.51	6.11	-	3.46
NaturalSpeech 2	Librilight	0.55	0.62	1.94	-	3.65
Voicebox	自己収集（60kh）	0.64	0.67	2.03	-	3.69
Voicebox	Librilight	0.48	0.50	2.14	-	3.52
Mega-TTS 2	Librilight	0.53	-	2.32	-	3.63
UniAudio	Mixed (165kh)	0.57	0.68	2.49	-	3.71
StyleTTS 2	LT + V + LJ	0.38	-	2.49	-	3.07
HierSpeech++	LT + LL ⋆ + EX + MS + NI	0.51	-	6.33	-	3.50
NaturalSpeech 3	Librilight	0.67	0.76	1.81	0.00	4.01

NaturalSpeech 3 は LibriSpeech test-clean で ground truth に近い CMOS を達成し、ベースラインに対して SMOS を改善。
SIM-O の同等性と SMOS の改善 (+0.16) は、プロンプトに対する話者類似性が高いことを示す。
WER は明瞭性を示す頑健さを示し、いくつかのベースラインを上回り、真値性能に近づく。
LibriSpeech では NaturalSpeech 3 が品質と類似性で真値と同等かそれ以上を示し、ゼロショットのマルチスピーカー TTS における人間近似性能を示唆。
RAVDESS の結果は MCD、MCD-Acc、SMOS の改善を示し、韻律類似性が優れている。
パラメータを 1B、データ量を 200k 時間へ拡大すると、さらに性能が向上。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。