Skip to main content
QUICK REVIEW

[論文レビュー] VoiceFixer: Toward General Speech Restoration with Neural Vocoder

Haohe Liu, Qiuqiang Kong|arXiv (Cornell University)|Sep 28, 2021
Speech Recognition and Synthesis参考文献 76被引用数 25
ひとこと要約

VoiceFixer はメルスペクトログラム解析段階とニューラルボコーダ合成段階を組み合わせ、複数の歪みを同時に扱う二段階の一般的な音声復元(General Speech Restoration, GSR)フレームワークを導入し、単一タスク SSR ベースラインよりも多様な歪みに対して MOS が改善される。

ABSTRACT

Speech restoration aims to remove distortions in speech signals. Prior methods mainly focus on single-task speech restoration (SSR), such as speech denoising or speech declipping. However, SSR systems only focus on one task and do not address the general speech restoration problem. In addition, previous SSR systems show limited performance in some speech restoration tasks such as speech super-resolution. To overcome those limitations, we propose a general speech restoration (GSR) task that attempts to remove multiple distortions simultaneously. Furthermore, we propose VoiceFixer, a generative framework to address the GSR task. VoiceFixer consists of an analysis stage and a synthesis stage to mimic the speech analysis and comprehension of the human auditory system. We employ a ResUNet to model the analysis stage and a neural vocoder to model the synthesis stage. We evaluate VoiceFixer with additive noise, room reverberation, low-resolution, and clipping distortions. Our baseline GSR model achieves a 0.499 higher mean opinion score (MOS) than the speech enhancement SSR model. VoiceFixer further surpasses the GSR baseline model on the MOS score by 0.256. Moreover, we observe that VoiceFixer generalizes well to severely degraded real speech recordings, indicating its potential in restoring old movies and historical speeches. The source code is available at https://github.com/haoheliu/voicefixer_main.

研究の動機と目的

  • 一般的な音声復元(GSR)タスクを動機づけ、単一のモデルで複数の歪みを復元することを定義する。
  • VoiceFixer を提案し、人間の聴覚処理を模倣した二段階フレームワークで復元品質を向上させる。
  • メルスペクトログラム表現を用いて分析段と合成段を分離することで、歪み全般にわたって強力な性能を得られることを示す。

提案手法

  • 二段階のアーキテクチャ: 分析は歪んだ音声をメルスペクトログラム表現へ変換し、合成はメル入力から波形を生成するニューラルボコーダを用いる。
  • 分析段は mel-filtered inputs から melスペクトログラムを回復するためにResUNetでモデル化。
  • 合成段は非自己回帰ボコーダ(TFGAN)を用い、敵対的損失とマルチドメインのスペクトログラム・時系列損失で訓練。
  • 訓練損失にはメル復元の MAE と、ボコーダの時系列領域損失と周波数領域損失の組み合わせを含む。
  • 識別器には多解像度の時系列識別器、サブバンド識別器、周波数識別器を含み、ボコーダ訓練を導く。
  • ボコーダ損失は L_F(メル損失と多解像度スペクトログラム損失)と L_T(セグメント、エネルギー、位相)を、対立的成分(L_D) とともに組み合わせる。

実験結果

リサーチクエスチョン

  • RQ1一般的な音声復元(GSR)モデルは1つのフレームワークで複数の歪みを復元できるか?
  • RQ2多様な歪みに対して、二段階の VoiceFixer アーキテクチャは MOS や知覚指標で一段階の SSR ベースラインを上回るか?
  • RQ3VoiceFixer は低サンプリング周波数にどれだけ対応し、分析と合成を組み合わせて品質を維持できるか?
  • RQ4異なる分析アーキテクチャ(ResUNet 対 DNN/BiGRU)が復元品質に与える影響は?
  • RQ5大規模な音声データで訓練されたニューラルボコーダが復元性能にどのように寄与するか?

主な発見

  • VoiceFixer (VF) with UNet-based analysis achieves the highest MOS and LSD among evaluated systems on ALL-GSR.
  • VF-UNet は ALL-GSR で GSR-UNet との MOS を 0.256 上回る。
  • VF-UNet の MOS は Oracle-Mel 上限からわずか 0.11 離れており、分析段の性能が強いことを示す。
  • VF は低サンプリングレートの超解像タスクで強力な性能を示し、特に 2–8 kHz から 44.1 kHz へのアップサンプリング時に複数の SSR モデルを上回る。
  • GSR-UNet は通常 ALL-GSR セットで SSR ベースラインを上回る傾向があり、VoiceFixer が知覚品質をさらに高める。
  • ニューラルボコーダを用いた合成は、大規模な音声データで訓練されたニューラルボコーダからの事前知識と低次元入力の恩恵を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。