[论文解读] VoiceFixer: Toward General Speech Restoration with Neural Vocoder
VoiceFixer 引入一个两阶段通用语音修复(GSR)框架,联合处理多种失真,包含梅尔频谱分析阶段和神经声码器合成阶段,在跨多种失真下的 MOS 优于单任务 SSR 基线。
Speech restoration aims to remove distortions in speech signals. Prior methods mainly focus on single-task speech restoration (SSR), such as speech denoising or speech declipping. However, SSR systems only focus on one task and do not address the general speech restoration problem. In addition, previous SSR systems show limited performance in some speech restoration tasks such as speech super-resolution. To overcome those limitations, we propose a general speech restoration (GSR) task that attempts to remove multiple distortions simultaneously. Furthermore, we propose VoiceFixer, a generative framework to address the GSR task. VoiceFixer consists of an analysis stage and a synthesis stage to mimic the speech analysis and comprehension of the human auditory system. We employ a ResUNet to model the analysis stage and a neural vocoder to model the synthesis stage. We evaluate VoiceFixer with additive noise, room reverberation, low-resolution, and clipping distortions. Our baseline GSR model achieves a 0.499 higher mean opinion score (MOS) than the speech enhancement SSR model. VoiceFixer further surpasses the GSR baseline model on the MOS score by 0.256. Moreover, we observe that VoiceFixer generalizes well to severely degraded real speech recordings, indicating its potential in restoring old movies and historical speeches. The source code is available at https://github.com/haoheliu/voicefixer_main.
研究动机与目标
- 动机并定义通用语音修复(GSR)任务:用单一模型恢复多种失真。
- 提出 VoiceFixer,一种仿效人类听觉处理的两阶段框架,以提升修复质量。
- 展示通过梅尔频谱表示将分析阶段与合成阶段分离,在多种失真下能获得强健的性能。
提出的方法
- 两阶段架构:分析阶段将失真音频映射到梅尔频谱表示;合成阶段使用神经声码器从梅尔输入生成波形。
- 分析阶段由 ResUNet 建模,用以从梅尔滤波输入恢复梅尔频谱。
- 合成阶段使用非自回归声码器(TFGAN),通过对抗损失和多域时频损失进行训练。
- 训练损失包括梅尔还原的 MAE,以及声码器的时域和频域损失的组合。
- 判别器包括多分辨率时域、子带和频域判别器,以引导声码器训练。
- 声码器损失将 L_F(梅尔损失和多分辨率谱损失)与 L_T(片段、能量、相位)结合,并加入对抗成分(L_D)。
实验结果
研究问题
- RQ1一个通用的语音修复(GSR)模型是否能够在一个框架中恢复多种失真?
- RQ2在 MOS 和感知指标上,两个阶段的 VoiceFixer 架构是否在多种失真下优于单阶段 SSR 基线?
- RQ3VoiceFixer 在低采样率下的处理能力如何,以及分析-合成的结合能否保持质量?
- RQ4不同分析架构(ResUNet 与 DNN/BiGRU)对修复质量有什么影响?
- RQ5在大规模语音数据上训练的神经声码器如何提升修复性能?
主要发现
- 使用 UNet 基于分析的 VoiceFixer(VF)在 ALL-GSR 上获得了评估系统中最高的 MOS 和 LSD。
- VF-UNet 在 ALL-GSR 上相较于 GSR 基线(GSR-UNet)提升了 0.256 的 MOS。
- VF-UNet 的 MOS 仅低于 Oracle-Mel 上限 0.11,表明分析阶段性能强劲。
- VF 在低采样率超分任务中表现强劲,明显优于若干 SSR 模型,特别是在将 2–8 kHz 上采样至 44.1 kHz 时。
- GSR-UNet 在 ALL-GSR 集合上通常优于 SSR 基线,VoiceFixer 进一步提升感知质量。
- 基于声码的合成受益于在大规模语音数据集上训练的神经声码器,提供先验知识和更低维度的输入。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。