QUICK REVIEW

[論文レビュー] HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

Jungil Kong, Jaehyeon Kim|arXiv (Cornell University)|Oct 12, 2020

Speech and Audio Processing参考文献 23被引用数 739

ひとこと要約

HiFi-GAN は、多周期・多スケール識別器と多受容野ジェネレータを備えた GAN ベースのボコーダを導入し、高忠実度の音声を効率的に提供、MOS と速度で自己回帰モデルとフロー型モデルを上回る。

ABSTRACT

Several recent work on speech synthesis have employed generative adversarial networks (GANs) to produce raw waveforms. Although such methods improve the sampling efficiency and memory usage, their sample quality has not yet reached that of autoregressive and flow-based generative models. In this work, we propose HiFi-GAN, which achieves both efficient and high-fidelity speech synthesis. As speech audio consists of sinusoidal signals with various periods, we demonstrate that modeling periodic patterns of an audio is crucial for enhancing sample quality. A subjective human evaluation (mean opinion score, MOS) of a single speaker dataset indicates that our proposed method demonstrates similarity to human quality while generating 22.05 kHz high-fidelity audio 167.9 times faster than real-time on a single V100 GPU. We further show the generality of HiFi-GAN to the mel-spectrogram inversion of unseen speakers and end-to-end speech synthesis. Finally, a small footprint version of HiFi-GAN generates samples 13.4 times faster than real-time on CPU with comparable quality to an autoregressive counterpart.

研究の動機と目的

音声品質と合成速度のバランスを取るニューラルボコーダを動機づける。
音声の周期パターンを捉えるジェネレーター-ディスクリミネーターアーキテクチャを開発する。
補助損失と多重識別器設計を通じて訓練の安定性と知覚品質を向上させる。
未知の話者やエンドツーエンドのテキスト音声合成パイプラインへの一般化を実証する。

提案手法

1つのジェネレーターと2つの識別器（マルチスケールとマルチパリオド）を備えた HiFi-GAN を提案する。
ジェネレーターにおけるマルチ受容野フュージョン（MRF）を導入し、異なる長さのパターンを捉える。
周期成分をモデル化するため、周期 [2,3,5,7,11] を持つマルチパリオド識別器（MPD）を採用。
複数の時間スケールで音声を評価するマルチスケール識別器（MSD）を使用。
敵対的損失（LSGAN）、メルスペクトログラム損失（L1）、特徴量マッチング損失（LFM）を組み合わせて訓練。
品質と効率のトレードオフのため、3つのジェネレーター構成（V1, V2, V3）を提供。

実験結果

リサーチクエスチョン

RQ1GAN ベースのボコーダは、自己回帰モデルやフロー型モデルに匹敵する高い知覚品質を達成できるか？
RQ2MPD による周期パターンの明示的モデリングは音声合成品質を向上させるか？
RQ3マルチスケールおよびマルチパリオド識別器は訓練の安定性とサンプルの忠実度にどう影響するか？
RQ4HiFi-GAN は未知の話者やエンドツーエンドの TTS パイプラインへ一般化できるか？

主な発見

HiFi-GAN のバリアントは LJSpeech で MOS が WaveNet (MoL)、WaveGlow、MelGAN を上回る。
V1 は 13.92M パラメータで MOS 4.36 (CI 0.07) を達成し、3.7 MHz 合成でリアルタイム類の GPU 速度（×167.86）を示す。
V2 は 0.92M パラメータで MOS 4.23 (CI 0.07) を達成し、GPU での速度向上は著しい（×764.80）。
V3 は最小で CPU 上の実時間性は顕著：×13.44、GPU：×1186.80、MOS 4.05 (CI 0.08)、オンデバイス利用に適する。
アブレーションにより MPD が重要であること（MPD がないと MOS が 2.28 に低下）、MSD が品質に寄与し、メルスペクトログラム損失が訓練を安定化させることが示された。
Tacotron2 とのエンドツーエンド微調整は HiFi-GAN バリアントのエンドツーエンド MOS を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。