Skip to main content
QUICK REVIEW

[論文レビュー] It's Raw! Audio Generation with State-Space Models

Karan Goel, Albert Gu|arXiv (Cornell University)|Feb 20, 2022
Music and Audio Processing被引用数 20
ひとこと要約

SaShiMi, an SSM-based multi-scale waveform model, stabilizes S4 for autoregressive generation and achieves state-of-the-art unconditional audio generation, while also boosting non-autoregressive diffusion-based generation.

ABSTRACT

Developing architectures suitable for modeling raw audio is a challenging problem due to the high sampling rates of audio waveforms. Standard sequence modeling approaches like RNNs and CNNs have previously been tailored to fit the demands of audio, but the resultant architectures make undesirable computational tradeoffs and struggle to model waveforms effectively. We propose SaShiMi, a new multi-scale architecture for waveform modeling built around the recently introduced S4 model for long sequence modeling. We identify that S4 can be unstable during autoregressive generation, and provide a simple improvement to its parameterization by drawing connections to Hurwitz matrices. SaShiMi yields state-of-the-art performance for unconditional waveform generation in the autoregressive setting. Additionally, SaShiMi improves non-autoregressive generation performance when used as the backbone architecture for a diffusion model. Compared to prior architectures in the autoregressive generation setting, SaShiMi generates piano and speech waveforms which humans find more musical and coherent respectively, e.g. 2x better mean opinion scores than WaveNet on an unconditional speech generation task. On a music generation task, SaShiMi outperforms WaveNet on density estimation and speed at both training and inference even when using 3x fewer parameters. Code can be found at https://github.com/HazyResearch/state-spaces and samples at https://hazyresearch.stanford.edu/sashimi-examples.

研究の動機と目的

  • グローバルに一貫した生成を実現する高レートの生音声のモデリングという課題に対処する。
  • 自己回帰生成の安定性を向上させた、マルチスケールの S4 ベースアーキテクチャである SaShiMi を提案する。
  • SaShiMi が無条件の AR 音声タスクで優位性を示すとともに、非 AR 拡散モデルのバックボーンとしての性能を示す。

提案手法

  • 長文脈波形モデリングのコアビルディングブロックとして S4 状態空間モデルを用いる。
  • A を Hurwitz 対応 (Lambda - p p^*) としてパラメータ化することで自己回帰生成のために S4 を安定化させる。
  • S4 ブロック間にマルチスケールプーリングを組み込み、クロススケール構造を捉える。
  • 双方向の緩和化によって非自己回帰能力を向上させる S4 の適用を可能にする。
  • 非 AR タスクのために前向きと逆向きの S4 出力を結合することで、単純な双方向 S4 の変種を用いる。
  • DiffWave における WaveNet を置換して SaShiMi を拡散モデルのバックボーンとして示す。

実験結果

リサーチクエスチョン

  • RQ1適切な安定性保証を伴う SSM ベースのアーキテクチャは、WaveNet や SampleRNN よりも無限に長い音声コンテキストをより効果的にモデル化できるか?
  • RQ2マルチスケールプーリング戦略は自己回帰音声生成のモデリング品質と効率を改善するか?
  • RQ3SaShiMi は拡散ベースの波形生成における強力な非自己回帰バックボーンとなり得るか?
  • RQ4因果的 S4 と比較して、双方向 S4 は非 AR 生成性能にどのような影響を与えるか?
  • RQ5長文脈の音声生成におけるパラメータ数、訓練速度、推論速度のベースラインとのトレードオフはどうなるか?

主な発見

  • SaShiMi は無条件の音楽・音声生成で、より良い尤度と長いコンテキスト処理を実現し、主要な自己回帰ベースライン(SampleRNN、WaveNet)を上回る。
  • Beethoven および YouTubeMix データセットで、SaShiMi は NLL を低く、MOS/品質指標を高く、長い文脈訓練(例:文脈長さ 128k ステップまで)を実現。
  • SC09 無条件音声生成では、SaShiMi は WaveNet ベースモデルよりも人間が知覚する品質と理解可能性のスコアが大幅に高い。
  • DiffWave で WaveNet を SaShiMi に置換することで、追加のチューニングなしで最先端の拡散ベース非自己回帰生成を達成。
  • 安定化された S4 パラメータ化 (Lambda - p p^*) は、元の S4 形式で観測された不安定性に対処し、安定した自己回帰生成をもたらす。
  • アーキテクチャのマルチスケールプーリングは等方性 S4 スタックより計算とモデリングの利点を生み出し、同等かそれ以上の品質で訓練・推論をより速くする。
  • 双方向 S4 は非自己回帰性能を向上させ、単方向構成を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。