Skip to main content
QUICK REVIEW

[論文レビュー] WaveGrad: Estimating Gradients for Waveform Generation

Nanxin Chen, Yu Zhang|arXiv (Cornell University)|Sep 2, 2020
Music and Audio Processing参考文献 59被引用数 44
ひとこと要約

WaveGrad はデータ密度勾配を推定する拡散/スコアベースの条件付き波形生成器で、非自己回帰的に高忠実度のオーディオを生成し、自己回帰ベースラインに近い品質を、6段階の改良ステップから可能にし、推論を高速化します。

ABSTRACT

This paper introduces WaveGrad, a conditional model for waveform generation which estimates gradients of the data density. The model is built on prior work on score matching and diffusion probabilistic models. It starts from a Gaussian white noise signal and iteratively refines the signal via a gradient-based sampler conditioned on the mel-spectrogram. WaveGrad offers a natural way to trade inference speed for sample quality by adjusting the number of refinement steps, and bridges the gap between non-autoregressive and autoregressive models in terms of audio quality. We find that it can generate high fidelity audio samples using as few as six iterations. Experiments reveal WaveGrad to generate high fidelity audio, outperforming adversarial non-autoregressive baselines and matching a strong likelihood-based autoregressive baseline using fewer sequential operations. Audio samples are available at https://wavegrad.github.io/.

研究の動機と目的

  • 自己回帰モデルを超えた、速く高品質な波形生成を動機づける。
  • データ密度の勾配(スコア)学習を活用して条件付きオーディオ分布をモデル化する。
  • 推論速度とサンプル品質の間の制御可能なトレードオフを持つ非自己回帰ゲネレータを開発する。
  • ロバストな推論のための条件付けスキーム(連続ノイズレベル vs 離散ステップインデックス)を調査する。
  • MOSと客観指標で自己回帰および非自己回帰ベースラインと比較評価する。

提案手法

  • モデルはデータ対数密度の勾配(スコア)を学習し、推論に Langevin dynamics 風のサンプラーを用いる。
  • メルスペクトログラム条件付けを用いた条件付き波形生成に拡散確率モデルを適用する。
  • 連続的なノイズレベル ¯α(離散ステップインデックスとは異なる)に条件づけられた重み付きノイズ除去スコアマッチング目的で訓練する。
  • 勾配ベースのサンプラーを使用して、ガウスノイズから yN から y0 へと段階的にデ-noise する。
  • アーキテクチャは完全畳み込み型で非自己回帰、並列推論を可能にする。
  • 連続ノイズレベル条件付けと離散インデックス条件付けを評価し、ノイズスケジュールと反復回数を分析する。

実験結果

リサーチクエスチョン

  • RQ1WaveGrad は自己回帰ベースラインと同等の品質を保ちつつ、非自己回帰フレームワークで高忠実度オーディオを生成できるか。
  • RQ2連続ノイズレベルでの条件付けは、離散インデックス条件付けと比べて柔軟性とサンプル品質を向上させるか。
  • RQ3推論反復回数が音質と速度に与える影響は何か、異なるノイズスケジュールは性能にどう影響するか。
  • RQ4WaveGrad は自己回帰および非自己回帰の確立済みボコーダと、主観MOSおよび客観指標でどう比較されるか。

主な発見

モデルMOS (↑)備考
WaveRNN4.49 ± 0.04自己回帰基準
Parallel WaveGAN3.92 ± 0.05非自己回帰ベースライン
MelGAN3.95 ± 0.06非自己回帰ベースライン
Multi-band MelGAN4.10 ± 0.05非自己回帰ベースライン
GAN-TTS4.34 ± 0.04非自己回帰ベースライン
WaveGrad Base (6 iterations, continuous)4.41 ± 0.03連続条件付け
WaveGrad Base (1,000 iterations, discrete indices)4.47 ± 0.04離散条件付け
WaveGrad Large (1,000 iterations, discrete indices)4.51 ± 0.04離散条件付け
Ground Truth4.58 ± 0.05リファレンス
  • WaveGrad は MOS で自己回帰 WaveRNN ベースラインと同等で、複数の非自己回帰ベースラインより上回る。
  • 連続ノイズ条件付けでの6回の推論反復は高忠実度のオーディオを生成(MOS 約4.41)し、NVIDIA V100 GPU での RT F は 0.2。
  • 離散インデックス条件付けのバリエーションはスケジュールごとに別々のモデルの訓練を必要するが、連続ノイズ条件付けは1つのモデルで複数のスケジュールをサポート可能。
  • 連続ノイズ条件付けは一般化性能が高く、少数の反復でも質を保つ。
  • WaveGrad Base は6回の反復で、1000回の反復の離散モデルと同等の MOS を達成しつつ、推論を大幅に高速化(RTF 0.2)。
  • 全体として WaveGrad は WaveRNN よりはるかに少ない逐次操作で高忠実度のオーディオを生成できる(同じGPUでの RTF は約 20.1 だった)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。