QUICK REVIEW

[論文レビュー] BigVGAN: A Universal Neural Vocoder with Large-Scale Training

Sang-gil Lee, Ping Wei|arXiv (Cornell University)|Jun 9, 2022

Speech and Audio Processing被引用数 46

ひとこと要約

BigVGANは、周期的活性化とアンチエイリアス表現を用いた大規模GANベースのニューラルボコーダを訓練し、未知の話者・言語・録音環境に対して強力なゼロショット性能を達成し、112Mパラメータに達し、ファインチューニングなしで最先端の結果を実現します。

ABSTRACT

Despite recent progress in generative adversarial network (GAN)-based vocoders, where the model generates raw waveform conditioned on acoustic features, it is challenging to synthesize high-fidelity audio for numerous speakers across various recording environments. In this work, we present BigVGAN, a universal vocoder that generalizes well for various out-of-distribution scenarios without fine-tuning. We introduce periodic activation function and anti-aliased representation into the GAN generator, which brings the desired inductive bias for audio synthesis and significantly improves audio quality. In addition, we train our GAN vocoder at the largest scale up to 112M parameters, which is unprecedented in the literature. We identify and address the failure modes in large-scale GAN training for audio, while maintaining high-fidelity output without over-regularization. Our BigVGAN, trained only on clean speech (LibriTTS), achieves the state-of-the-art performance for various zero-shot (out-of-distribution) conditions, including unseen speakers, languages, recording environments, singing voices, music, and instrumental audio. We release our code and model at: https://github.com/NVIDIA/BigVGAN

研究の動機と目的

ファインチューニングなしでOODオーディオへ一般化できる普遍的ニューラルボコーダーを開発する。
waveform生成品質を改善するアーキテクチャ的帰納バイアスを調査する。
安定性を維持しつつ、GANボコーダー訓練を前例のない規模（最大112Mパラメータ）へ拡大する。
未知の話者・言語・録音条件を含む多様なディストリビューション内外の状況で評価する。
実世界の大規模GANボコーディングを導く実践的な洞察とアブレーションを提供する。

提案手法

生成器に周期的帰納バイアスを注入する周期的活性化（Snake関数）を導入する。
学習可能な周期性を備えた複数の残差ブロックを組み合わせ、高周波アーチファクトを低域通過フィルタで抑制するアンチエイリアス多周期性構成（AMP）を開発する。
生成器を112Mパラメータまでスケールさせ（BigVGAN）、大規模GAN訓練の故障モードに対処する（学習率調整、より大きなバッチサイズ、勾配クリッピング）。
HiFi-GAN MRD識別器をMRD（マルチレゾリューションドメイン）に置換し、自己回帰やフローに基づく同型性を課さずにスペクトル構造を改善する。
訓練データをLibriTTSデータセット全体（train-full）で多様な話者・環境を確保し、見せていないデータでゼロショット性能を評価する。
objective指標（M-STFT、PESQ、MCD、Periodicity、V/UV F1）と主観的SMOS/MOS評価を複数のOODタスクで検証し、頑健性を評価する。

実験結果

リサーチクエスチョン

RQ1大規模GANボコーダーが、ファインチューニングなしで未知の話者・言語・録音環境へ一般化できるか。
RQ2普遍的ボコーディングにおいて、高忠実度の波形生成を改善するアーキテクチャ的帰納バイアス（周期的活性化とアンチエイリアシング）は何か。
RQ3GANボコーダーを112Mパラメータへスケールすると、OOD条件下での質と頑健性にどのような影響があるか。
RQ4大規模GANボコーディングを安定化させ、早期崩壊を防ぐために必要な訓練戦略は何か。

主な発見

Model	M-STFT(↓)	PESQ(↑)	MCD(↓)	Periodicity(↓)	V/UV F1(↑)	MOS(↑)	SMOS(↑)
Ground Truth	-	-	-	-	-	4.40 B1 0.06	4.44 B1 0.06
SC-WaveRNN	2.2358	1.701	1.8854	0.3044	0.8144	3.20 B1 0.11	3.29 B1 0.10
WaveGlow-256	1.3099	3.138	2.3591	0.1485	0.9378	3.84 B1 0.10	3.87 B1 0.10
WaveFlow-128	1.1120	3.027	1.2455	0.1416	0.9410	3.85 B1 0.10	3.89 B1 0.10
HiFi-GAN (V1)	1.0017	2.947	0.6603	0.1565	0.9300	4.08 B1 0.09	4.15 B1 0.09
BigVGAN-base	0.8788	3.519	0.4564	0.1287	0.9459	4.10 B1 0.09	4.20 B1 0.08
BigVGAN	0.7997	4.027	0.3745	0.1018	0.9598	4.11 B1 0.09	4.26 B1 0.08

BigVGAN-baseは、同じパラメータ予算で最先端のHiFi-GAN (V1)を objective指標で上回り、波形データに対するより良い周期的帰納バイアスを示唆している。
BigVGAN (112M)は、未知の言語・話者・録音環境・歌声・音楽・楽器音声を横断するゼロショット性能で最高を達成し、OODタスクのSMOSでベースラインを大幅に上回る。
大規模訓練により、BigVGANは歌声音声や楽器質感を含むOOD信号に対する強い外挿能力と頑健性を示す。
大規模GANボコーディングの実用的な訓練レシピを提供し、早期訓練崩壊を回避するための学習率調整、より大きなバッチサイズ、勾配クリッピングを含む。
LibriTTSおよびMUSDB18-HQの評価を通じて、BigVGANは競合モデルよりMOS/SMOSスコアが優れ、特にOODシナリオでスペクトル歪みが低い。
訓練データの多様性が重要で、多様なデータセット（train-full）で訓練されたモデルは、クリーンなサブセット（train-clean-360またはVCTK）で訓練されたモデルより優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。