[論文レビュー] HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis
HiFiSinger は FastSpeech の音響モデルと Parallel WaveGAN のボコーダを用い、マルチスケール対向訓練(SF-GAN および ML-GAN)で高忠実度の 48kHz ボーカル合成を実現し、従来の SVS システムを上回る。
High-fidelity singing voices usually require higher sampling rate (e.g., 48kHz) to convey expression and emotion. However, higher sampling rate causes the wider frequency band and longer waveform sequences and throws challenges for singing voice synthesis (SVS) in both frequency and time domains. Conventional SVS systems that adopt small sampling rate cannot well address the above challenges. In this paper, we develop HiFiSinger, an SVS system towards high-fidelity singing voice. HiFiSinger consists of a FastSpeech based acoustic model and a Parallel WaveGAN based vocoder to ensure fast training and inference and also high voice quality. To tackle the difficulty of singing modeling caused by high sampling rate (wider frequency band and longer waveform), we introduce multi-scale adversarial training in both the acoustic model and vocoder to improve singing modeling. Specifically, 1) To handle the larger range of frequencies caused by higher sampling rate, we propose a novel sub-frequency GAN (SF-GAN) on mel-spectrogram generation, which splits the full 80-dimensional mel-frequency into multiple sub-bands and models each sub-band with a separate discriminator. 2) To model longer waveform sequences caused by higher sampling rate, we propose a multi-length GAN (ML-GAN) for waveform generation to model different lengths of waveform sequences with separate discriminators. 3) We also introduce several additional designs and findings in HiFiSinger that are crucial for high-fidelity voices, such as adding F0 (pitch) and V/UV (voiced/unvoiced flag) as acoustic features, choosing an appropriate window/hop size for mel-spectrogram, and increasing the receptive field in vocoder for long vowel modeling. Experiment results show that HiFiSinger synthesizes high-fidelity singing voices with much higher quality: 0.32/0.44 MOS gain over 48kHz/24kHz baseline and 0.83 MOS gain over previous SVS systems.
研究の動機と目的
- 周波数カバーと時間的モデリングを拡張することで、48kHz での高忠実度の歌声合成の課題に対応する。
- 広い周波数帯と長い波形列をモデル化する対向訓練法を提案する。
- 音高(ピッチ)と有声/無声特徴を組み込み、歌声の品質と制御性を向上させる。
- 高周波歌声合成に影響を与える設計選択(窓長、受容野)を調査する。
- 24kHz ベースラインおよび従来の SVS システムに対して顕著な品質向上を示す。
提案手法
- 高速なトレーニングと推論のため、FastSpeech ベースの音響モデルと Parallel WaveGAN ボコーダを採用する。
- SF-GAN を導入:80 のメルスペクトログラムビンを低/中/高のサブバンドに分割し、別個の識別器を用いて広い周波数帯をより良くモデル化する。
- ML-GAN を導入:0.25s、0.5s、0.75s、1.0s の異なる波形長さに対する複数の識別器を使用して長い列を扱う。
- 音高(F0)と V/UV を追加の音響特徴として組み込み;補助学習のために楽譜の音高をショートカット入力として利用する。
- メルスペクトログラムは 20ms の窓と 5ms のホップを選択し、長い母音をモデル化するためボコーダの受容野を拡大する。
- 音響モデルとボコーダを別々に訓練する;ウォームアップ後に識別器を適用する;訓練時はグラウンドトゥルースの継続時間を、推論時は推定された継続時間を使用する。
実験結果
リサーチクエスチョン
- RQ148kHz SVS は 24kHz SVS や従来の SVS システムより顕著に高い品質を提供できるか?
- RQ2マルチバンド(SF-GAN)およびマルチレングス(ML-GAN)対向設計は、高サンプリングレート歌声のメルスペクトログラムおよび波形生成を改善するか?
- RQ3追加の音響特徴(F0、V/UV)と慎重な特徴量/窓選択が最終的な音声品質に与える影響は何か?
- RQ4ボコーダの受容野は歌唱における長い母音にどのような影響を与えるか?
主な発見
| Method | MOS | Recording |
|---|---|---|
| HiFiSinger (48kHz) | 3.76±0.06 | Recording (4) |
| HiFiSinger (24kHz) | 3.47±0.06 | Recording (4) |
| Baseline (48kHz) | 3.44±0.08 | Baseline (recordings) |
| Baseline (24kHz) | 3.32±0.09 | Baseline (24kHz) |
| Baseline (24kHz upsample) | 3.38±0.08 | Baseline (24kHz upsample) |
| XiaoiceSing (48kHz) | 2.93±0.06 | XiaoiceSing (Lu et al., 2020) |
| HiFiSinger (48kHz) – reference | 4.03±0.06 | Recording |
- 48kHz の HiFiSinger は 24kHz のベースラインおよび従来の SVS システムより高い MOS を達成し、XiaoiceSing との差で 0.83 MOS の改善を含む。
- 24kHz から 48kHz へのアップグレードで 0.29 MOS の利得を示し、ベースラインの利得である 0.12 MOS を上回る。
- 3つの周波数帯識別器を持つ SF-GAN は、識別器が少ないまたは多い構成より優れており、バンド間のモデリングにおける最適点を示す。
- 複数の波形長さ識別器を持つ ML-GAN は、単一長さ識別器と比較して長い母音のグリッチや振動を低減する。
- 音高と V/UV の入力はボコーダの品質を大幅に向上させ、除去すると CMOS が低下(−0.28 〜 −0.34)することからその重要性を示している。
- 適切に選択された 20ms/5ms のメルスペクトログラム窓と大きなボコーダ受容野が、より高忠実度の歌声合成に寄与する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。