QUICK REVIEW

[論文レビュー] HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial Networks

Jiaqi Su, Zeyu Jin|arXiv (Cornell University)|Jun 10, 2020

Speech and Audio Processing参考文献 41被引用数 19

ひとこと要約

HiFi-GAN は、時間領域および時間周波数領域のマルチスケール・マルチドメイン判別器を用いて、ディープ特徴マッチングにより知覚的品質を向上させる、エンドツーエンドの WaveNet に基づく生成的敵対的ネットワークを提案する。この手法は、ノイズ除去、エコー除去、音声品質向上の分野で最先端の性能を達成しており、客観的および主観的評価の両面で従来手法を大きく上回っている。

ABSTRACT

Real-world audio recordings are often degraded by factors such as noise, reverberation, and equalization distortion. This paper introduces HiFi-GAN, a deep learning method to transform recorded speech to sound as though it had been recorded in a studio. We use an end-to-end feed-forward WaveNet architecture, trained with multi-scale adversarial discriminators in both the time domain and the time-frequency domain. It relies on the deep feature matching losses of the discriminators to improve the perceptual quality of enhanced speech. The proposed model generalizes well to new speakers, new speech content, and new environments. It significantly outperforms state-of-the-art baseline methods in both objective and subjective experiments.

研究の動機と目的

新しい話者、音声コンテンツ、環境に一般化可能な高精細音声強調手法の開発を目的とする。
単一チャネル録音におけるノイズ、リバーブ、エクイライザの歪みの複合的課題に対処することを目的とする。
ディープ特徴マッチングによる人間の知覚に類似したアプローチを組み込むことで、客観的指標を超えた知覚的品質の向上を図ることを目的とする。
時間領域および時間周波数領域におけるマルチスケール・マルチドメイン判別器を用いることで、GAN の訓練を安定化させ、アーチファクトを低減することを目的とする。
位相に起因する歪みを最小限に抑えるために、生波形から直接エンドツーエンドで強調処理を実行することを目的とする。

提案手法

ノイズあり・リバーブあり音声を綺麗な波形に変換するため、フィードフォワード WaveNet を生成器として使用する。
異なる時間的解像度で動作する複数の判別器を生波形上に適用し、マルチスケールの時間的構造を捉える。
メルスペクトログ램上に別個の判別器を設け、時間周波数ドメインの特徴をモデル化する。
複数の判別器からのディープ特徴マッチング損失を適用し、生成器が知覚的に自然な出力を得るように誘導する。
敵対的損失に加え、判別器の中間特徴マップから導出される知覚的損失を組み合わせることで、訓練の安定化とリアルさの向上を図る。
WaveNet の後段に Postnet モジュールを設け、出力を微調整し、残存アーチファクトを低減する。

実験結果

リサーチクエスチョン

RQ11 つのディープラーニングモデルが、多様な話者、音声コンテンツ、録音環境にわたって効果的に一般化可能かどうか。
RQ2ディープ特徴マッチングを組み込んだマルチスケール・マルチドメイン敵対的訓練が、標準的な GAN や客観的指標を超えて知覚的品質を向上させるか。
RQ3時間周波数ドメインの判別器の導入が、波形ベース音声強調の安定性と品質にどのように影響するか。
RQ4事前学習済み判別器からのディープ特徴マッチングが、固定または再学習された損失ネットワークと比較して、音声の高精細度をどの程度向上させるか。
RQ5強いリバーブとノイズが存在する状況下でも、エンドツーエンド波形ベース手法がスペクトルベース手法を上回るか。

主な発見

VCTK のノイズありデータセットにおいて、HiFi-GAN は PESQ スコア 2.94 を記録し、MetricGAN や Wave-U-Net などのすべてのベースラインを上回った。
主観的 MOS 測定では、HiFi-GAN は最高の平均意見スコアを獲得し、90％以上のペairwise 比較ですべてのベースラインを上回った。
波形とスペクトログラムの両方の判別器を組み合わせることで、訓練の安定性と収束性が著しく向上し、スペクトログラム判別器を削除すると性能が低下した。
HiFi-GAN は、訓練分布外の未学習話者や環境に対しても良好に一般化し、その堅牢性を示した。
リバーブ環境下でも、スペクトルベースのベースラインを上回ったことから、時間周波数表現の学習における重要性が浮き彫りになった。
Postnet の微調整により結果が向上し、HiFi-GAN + Postnet は CSIG スコア 4.07 を達成した。これは MetricGAN を除き、他の手法に比べて優れた PESQ と COVL スコアを達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。