[論文レビュー] DiffWave: A Versatile Diffusion Model for Audio Synthesis
DiffWaveは非自己回帰拡散モデルで生の音声を合成し、WaveNet vocoder品質とほぼ同等ながら合成ははるかに高速で、無条件生成とクラス条件付き生成の両方で卓越している。
In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audios in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations.
研究の動機と目的
- 高忠実度の生音声合成を非自己回帰拡散モデルで前進させる。
- 条件付き(メルスペクトログラムとグローバルラベル)および無条件の波形生成を可能にする。
- ELBOベースの目的を用いた効率的なトレーニングと小さなフットプリントで競争力のある音声品質を達成する。
提案手法
- ホワイトノイズから音声へのマルコフ逆過程を介して拡散確率的フレームワークを使用する。
- ϵθデノイザーと固定σθを用いたHoらによる閉形式ELBOトレーニングを採用する。
- WaveNetに着想を得た前方伝搬・双方向拡張畳み込みアーキテクチャ(Bi-DilConv)を、自己回帰ではない形でDiffWaveに実装する。
- 現在の拡散ステップにϵθを条件付けする拡散ステップ埋め込みを組み込む。
- 局所的な(メルスペクトログラム)およびグローバルな(話者/語彙)条件付け、さらには拡散ステップ全体にわたる大きな受容野を活用して無条件生成をサポートする。
- 逆過程をTinferステップへと崩し、設計された分散スケジュールで高速サンプリングを提供する。
実験結果
リサーチクエスチョン
- RQ1DiffWaveはメルスペクトログラム条件付きで高忠実なニューラルボコーディングを達成し、自己回帰ボコーダよりはるかに高速な合成を提供できるか?
- RQ2自己回帰モデルやGANベースモデルと比較して、無条件の波形生成における音声品質とサンプル多様性はどうか?
- RQ3クラス条件付きの波形生成において、ベースラインの自己回帰モデルと比較してDiffWaveは競争力のあるまたは優れた結果を出すか?
- RQ4異なる拡散ステップ数とモデルサイズで、モデルフットプリント・速度・品質のトレードオフはどうなるか?
主な発見
| FID(↓) | IS(↑) | mIS(↑) | AM(↓) | NDB/K(↓) | MOS(↑) |
|---|---|---|---|---|---|
| 3.279 | 2.54 | 7.6 | 1.368 | 0.86 | 1.34 ± 0.29 |
| 2.947 | 2.84 | 10.0 | 1.260 | 0.86 | 1.43 ± 0.30 |
| 1.349 | 4.53 | 36.6 | 0.796 | 0.78 | 2.03 ± 0.33 |
| 1.287 | 5.30 | 59.4 | 0.636 | 0.74 | 3.39 ± 0.32 |
| 0.000 | 8.48 | 281.4 | 0.164 | 0.00 | — |
| 0.011 | 8.47 | 275.2 | 0.166 | 0.10 | 3.72 ± 0.28 |
- DiffWaveはWaveNetボコーダーの品質(MOS: 4.44 vs. 4.43)をほぼ同等に再現し、合成は数オーダーの高速化を実現する。
- 小さなDiffWaveモデル(2.64Mパラメータ)は22.05 kHzの音声でMOS 4.37を達成し、エンジニアードカーネルなしでV100上でリアルタイムを5×以上超える速度で動作する。
- DiffWaveは自己回帰生成と比較して、無条件生成において音声品質とサンプル多様性の点でWaveNetとWaveGANを上回る。
- 無条件生成において、DiffWaveはMOS 3.39を達成し、WaveNet(MOS 1.43)および WaveGAN(MOS 2.03)を上回る。
- クラス条件付き生成において、DiffWaveはMOS 3.50(WaveNet 1.58と比較)、ディープ版はMOS 3.44に達する。
- DiffWaveは多くのフロー系ボコーダーより小さなフットプリントを維持しつつ、強力な無条件および条件付き生成と競争力のある品質を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。