QUICK REVIEW

[論文レビュー] RAVE: A variational autoencoder for fast and high-quality neural audio synthesis

Antoine Caillon, Philippe Esling|arXiv (Cornell University)|Nov 9, 2021

Speech and Audio Processing被引用数 40

ひとこと要約

RAVE は adversarial fine-tuning と multiband 波形分解を備えた二段階の VAE を導入し、CPU 上で約20倍のリアルタイム性と約48kHz の高品質音声合成を実現します。

ABSTRACT

Deep generative models applied to audio have improved by a large margin the state-of-the-art in many speech and music related tasks. However, as raw waveform modelling remains an inherently difficult task, audio generative models are either computationally intensive, rely on low sampling rates, are complicated to control or restrict the nature of possible signals. Among those models, Variational AutoEncoders (VAE) give control over the generation by exposing latent variables, although they usually suffer from low synthesis quality. In this paper, we introduce a Realtime Audio Variational autoEncoder (RAVE) allowing both fast and high-quality audio waveform synthesis. We introduce a novel two-stage training procedure, namely representation learning and adversarial fine-tuning. We show that using a post-training analysis of the latent space allows a direct control between the reconstruction fidelity and the representation compactness. By leveraging a multi-band decomposition of the raw waveform, we show that our model is the first able to generate 48kHz audio signals, while simultaneously running 20 times faster than real-time on a standard laptop CPU. We evaluate synthesis quality using both quantitative and qualitative subjective experiments and show the superiority of our approach compared to existing models. Finally, we present applications of our model for timbre transfer and signal compression. All of our source code and audio examples are publicly available.

研究の動機と目的

高速・高品質なニューラル音声合成を、重い自己回帰生成なしに動機づける。
再構成忠実度と潜在空間のコンパクト性のバランスを取るVAEベースのフレームワークを開発する。
multiband 波形分解を用いて時系列次元を削減し、低コストでの48kHz 合成を可能にする。
訓練後の潜在空間分析手法を提供し、情報量の多い潜在次元を特定する。
timber transfer（音色転送）と信号圧縮の応用を示す。

提案手法

まず正規の VAE を表現学習のために訓練し、次に adversarial な生成目的でファインチューニングする、二段階の訓練手順を提案する。
生波形の multiband 分解を用いて時間的次元を削減し、48kHz 合成を可能にする。
表現学習（ステージ1）時に multiscale spectral loss でエンコーダを最適化する。
ステージ2 ではエンコーダを凍結し、ヒンジ-GAN 目的関数とスペクトルおよび特徴量マッチング損失を用いてデコーダを訓練する。
訓練後の潜在空間分析を singular value decomposition により実施し、情報量の多い/少ない潜在次元を分離し、可変忠実度再構成を可能にする。

実験結果

リサーチクエスチョン

RQ1VAEベースのモデルは CPU 上でリアルタイムまたはほぼリアルタイムの性能で高品質な48kHz音声合成を達成できるか。
RQ2訓練後に潜在空間を分析・剪定して、再構成忠実度と表現のコンパクト性をどうバランスさせるか。
RQ3表現学習後の adversarial なファインチューニングは、学習済み潜在構造を損なうことなく知覚品質を向上させるか。
RQ4multiband 波形分解は管理可能な計算コストで高采样周波数の合成を可能にするか。
RQ5 supervised targets を用いずに、音色転送と信号圧縮を実現できるか。

主な発見

RAVE は標準ノートパソコンの CPU 上で 48kHz 音声合成をリアルタイムの20倍の速度で実現する。
弦データにおける 15 試行の MOS 研究で、RAVE は 3.01（NSynth） vs 2.68、SING は 1.15 を記録。
RAVE は基準手法よりも大幅に少ない 17.6M パラメータを使用する。
16-band の multiband 分解により、計算負荷を低減しつつ高品質な 48kHz 合成を実現。
訓練後の潜在空間分析（SVD）により fidelity パラメータ f が得られ、潜在次元を大幅に削減しつつ再構成品質を制御できる。
RAVE は音色転送と潜在空間ベースの信号圧縮をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。