QUICK REVIEW

[論文レビュー] Universal MelGAN: A Robust Neural Vocoder for High-Fidelity Waveform Generation in Multiple Domains

Won Jang, Dan Lim|arXiv (Cornell University)|Nov 19, 2020

Speech Recognition and Synthesis参考文献 24被引用数 25

ひとこと要約

本稿では、MelGANフレームワークにマルチスケールスペクトログラムディスクリミネータを統合することで、未学習の話者、感情、言語を含む複数のドメインで高精細音声を生成できる耐障害性の高いニューラルボコーダーであるUniversal MelGANを提案する。この手法によりスペクトル分解能が向上し、高周波数帯域の過剰平滑化が軽減され、リアルタイム推論（0.028 RTF）を実現しながら、マルチスケーラーTTSにおける最先端の平均評価得点（MOS）4.22を達成した。

ABSTRACT

We propose Universal MelGAN, a vocoder that synthesizes high-fidelity speech in multiple domains. To preserve sound quality when the MelGAN-based structure is trained with a dataset of hundreds of speakers, we added multi-resolution spectrogram discriminators to sharpen the spectral resolution of the generated waveforms. This enables the model to generate realistic waveforms of multi-speakers, by alleviating the over-smoothing problem in the high frequency band of the large footprint model. Our structure generates signals close to ground-truth data without reducing the inference speed, by discriminating the waveform and spectrogram during training. The model achieved the best mean opinion score (MOS) in most scenarios using ground-truth mel-spectrogram as an input. Especially, it showed superior performance in unseen domains with regard of speaker, emotion, and language. Moreover, in a multi-speaker text-to-speech scenario using mel-spectrogram generated by a transformer model, it synthesized high-fidelity speech of 4.22 MOS. These results, achieved without external domain information, highlight the potential of the proposed model as a universal vocoder.

研究の動機と目的

マルチスケーラー音声データで学習された大規模なフットプリントを持つMelGANモデルが高周波数帯域で過剰平滑化を示す問題に対処すること。
推論速度を損なわずに波形の忠実度とスペクトル分解能を向上させること。
新たな話者、感情、言語を含む未学習のドメインにおいても高品質な音声を生成できる汎用ボコーダーを開発すること。
外部のドメイン情報が不要な状況でも、学習済みおよび未学習ドメインの両方で優れた性能を達成すること。
軽量でスケーラブルなアーキテクチャを用いて、リアルタイムかつ高精細なTTS合成を実現すること。

提案手法

異なるSTFTスケールで動作するマルチスケールスペクトログラムディスクリミネータを導入し、スペクトルの詳細を向上させ、高周波数帯域の過剰平滑化を軽減する。
敵対的学習中に波形とスペクトログラムを同時に判別するマルチスケールディスクリミネータを、元のMelGANアーキテクチャに統合する。
マルチスケールSTFT損失を補助的な学習目的として採用し、複数のSTFTパラメータセットにおけるスペクトル収束とログマグニチュード損失を統合する。
トランスポジット畳み込みとリーマンブロックに基づく生成器を採用し、より良い時間的モデリングを実現するための受容 field の拡張を実施する。
敵対的損失、マルチスケールSTFT損失、および知覚的損失を用いて、細粒度なスペクトル詳細を保持するように、エンドツーエンドでモデルを学習する。
マルチスケーラーTTS評価のため、Transformerベースの音響モデル（JDI-T）が予測するメルスペクトログ램を用いてボコーダーを微調整する。

実験結果

リサーチクエスチョン

RQ1外部のドメイン情報が与えられない状況でも、MelGANベースのボコーダーが未学習の話者、感情、言語に一般化可能か？
RQ2マルチスケールスペクトログラムディスクリミネータの追加が、高周波数帯域におけるスペクトル分解能の向上と過剰平滑化の軽減にどのように寄与するか？
RQ3提案手法のMOSと推論速度の観点での、学習済みおよび未学習ドメインの両方における性能はいかがなものか？
RQ4WaveGlow、WaveRNN、FB-MelGANといった最先端ボコーダーと比較して、マルチスケーラーTTSタスクにおいて本手法はどのように性能を発揮するか？
RQ5多様なマルチスケーラー音声データセットで学習させた場合でも、高忠実度とリアルタイム推論速度を維持できるか？

主な発見

Universal MelGANはマルチスケーラーTTSでMOS4.22を達成し、WaveGlow（3.36）、WaveRNN（3.06）、FB-MelGAN（3.43）を大きく上回った。
未学習ドメインのシナリオでは、未学習話者でMOS4.15、感情で3.91、未学習言語で3.67を記録し、すべての指標で真値記録に最も近い結果を示した。
学習済みと未学習ドメイン間の性能ギャップが最小であった（例：韓国語で4.19 vs. 4.05、英語で3.81 vs. 3.71）、強固な耐障害性を示した。
NVIDIA V100 GPU上でRTF 0.028を達成し、ハードウェア最適化や品質低下を伴う加速技術を用いなくても、効率的な推論を実現した。
マルチスケールスペクトログラムディスクリミネータは、特に大規模なフットプリントを持つモデルにおいて、高周波成分の過剰平滑化を効果的に軽減し、スペクトル忠実度を向上させた。
外部ドメイン埋め込みが不要な状況でも、すべてのベースラインを上回る性能を両方の評価シナリオ（学習済み・未学習ドメイン）で示し、汎用ボコーダーとしての可能性を実証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。