[論文レビュー] Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi-resolution spectrogram
Parallel WaveGANは、非自動回帰のWaveNetをmulti-resolution STFTと敵対的損失を用いて蒸留なしの設定で訓練し、1つのGPUで1.44Mパラメータ、MOSは蒸留ベースの手法と同等で、28.68xリアルタイムで24 kHzの音声を達成する。
We propose Parallel WaveGAN, a distillation-free, fast, and small-footprint waveform generation method using a generative adversarial network. In the proposed method, a non-autoregressive WaveNet is trained by jointly optimizing multi-resolution spectrogram and adversarial loss functions, which can effectively capture the time-frequency distribution of the realistic speech waveform. As our method does not require density distillation used in the conventional teacher-student framework, the entire model can be easily trained. Furthermore, our model is able to generate high-fidelity speech even with its compact architecture. In particular, the proposed Parallel WaveGAN has only 1.44 M parameters and can generate 24 kHz speech waveform 28.68 times faster than real-time on a single GPU environment. Perceptual listening test results verify that our proposed method achieves 4.16 mean opinion score within a Transformer-based text-to-speech framework, which is comparative to the best distillation-based Parallel WaveNet system.
研究の動機と目的
- 高速かつ高忠実度の波形生成を密度蒸留なしで動機づける。
- 敵対的損失とマルチ解像度STFT損失を組み合わせた単純なトレーニングパイプラインを開発する。
- コンパクトなモデルでリアルタイム以上の波形生成を実現する。
- TransformerベースのTTSフレームワーク内での有効性を示す。
提案手法
- 生成器として音響特徴量を条件付けした非自動回帰のWaveNetを使用する。
- 波形領域の敵対的損失とマルチ解像度STFT補助損失の組み合わせで訓練する。
- 安定性のために最小二乗GANの定式化を採用する。
- 異なるFFTサイズ、窓幅、フレームシフトを持つマルチ解像度STFT損失を用いて時刻-周波数特性を捉える。
- L_G = L_aux + lambda_adv * L_advを同時最適化して生成器を訓練する。
- オート回帰WaveNetおよびClariNetのベースラインと比較し、TTS設定でMOSを評価する。
実験結果
リサーチクエスチョン
- RQ1蒸留なしのGANベースのボコーダは蒸留ベースのシステムと比較して知覚品質で競合できるか。
- RQ2マルチ解像度STFT損失は並列波形生成器の時刻-周波数特性の学習を改善するか。
- RQ3二段階の教師-生徒フレームワークよりも訓練プロセスが単純で高速でありつつ高忠実度を維持できるか。
- RQ4TransformerベースのTTSフレームワーク内でParallel WaveGANはボコーダとしてどう機能するか。
主な発見
| System | Model | KLD-based distillation | STFT loss | Adversarial loss | Number of layers | Model size | Inference speed | MOS (95% CI) |
|---|---|---|---|---|---|---|---|---|
| System 1 | WaveNet | - | - | - | 24 | 3.81 M | 0.32×10^-2 | 3.61 ± 0.12 |
| System 2 | ClariNet | Yes | L_s^(1) | - | 60 | 2.78 M | 14.62 | 3.88 ± 0.11 |
| System 3 | ClariNet | Yes | L_s^(1)+L_s^(2)+L_s^(3) | - | 60 | 2.78 M | 14.62 | 4.21 ± 0.09 |
| System 4 | ClariNet | Yes | L_s^(1)+L_s^(2)+L_s^(3) | Yes | 60 | 2.78 M | 14.62 | 4.21 ± 0.09 |
| System 5 | Parallel WaveGAN | - | L_s^(1) | Yes | 30 | 1.44 M | 28.68 | 1.36 ± 0.07 |
| System 6 | Parallel WaveGAN | - | L_s^(1)+L_s^(2)+L_s^(3) | Yes | 30 | 1.44 M | 28.68 | 4.06 ± 0.10 |
| System 7 | Recording | - | - | - | - | - | - | 4.46 ± 0.08 |
- Parallel WaveGANは1つのV100 GPUで28.68xリアルタイム、パラメータ1.44Mで24 kHzの音声生成を達成。
- Parallel WaveGAN(STFT損失のみ)のMOSは4.06、同様の設定でClariNetはSTFT損失で4.21。
- Parallel WaveGANの訓練時間は2.8日で、WaveNet(7.4日)およびClariNet(12.7日)より速い。
- Transformer TTSモデルと統合した場合、Parallel WaveGANはMOS 4.16に達し、ClariNet-GAN(4.14)およびClariNet(4.00)と競合的。
- マルチ解像度STFT損失は単一解像度STFT損失および自動回帰WaveNetを上回る知覚品質を示す。
- 敵対的損失はTransformerベースのTTSでの頑健性に beneficioをもたらすが、独立した分析/合成では利点が明確でないこともある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。