[论文解读] Data Augmentation for Pathological Speech Enhancement
本文系统评估了用于病理性语音增强的变换、生成与噪声数据增强策略在预测性与生成性SE模型上的效果,发现噪声增强最为有效,尽管结果取决于所用模型。
The performance of state-of-the-art speech enhancement (SE) models considerably degrades for pathological speech due to atypical acoustic characteristics and limited data availability. This paper systematically investigates data augmentation (DA) strategies to improve SE performance for pathological speakers, evaluating both predictive and generative SE models. We examine three DA categories, i.e., transformative, generative, and noise augmentation, assessing their impact with objective SE metrics. Experimental results show that noise augmentation consistently delivers the largest and most robust gains, transformative augmentations provide moderate improvements, while generative augmentation yields limited benefits and can harm performance as the amount of synthetic data increases. Furthermore, we show that the effectiveness of DA varies depending on the SE model, with DA being more beneficial for predictive SE models. While our results demonstrate that DA improves SE performance for pathological speakers, a performance gap between neurotypical and pathological speech persists, highlighting the need for future research on targeted DA strategies for pathological speech.
研究动机与目标
- 由于数据稀缺和非典型声学特征,提升病理性语音增强(SE)性能的动力。
- 评估三类 DA(变换性、生成性、噪声)对病理发音者 SE 准确性的影响。
- 在不同增强策略下比较预测性与生成性 SE 模型。
- 为病理性语音数据集提供有效 DA 比例与策略选择的指南。
提出的方法
- 在三种增强比例(25%、100%、400%)下评估六种 DA 策略(四种变换性、两种生成性,以及噪声增强)。
- 使用两种 SE 模型:一个预测性复数值回归(CR)模型和一个 Schrödinger Bridge(SB)生成性模型。
- 以指定的窗/滑移和归一化在 STFT 域表示信号;在 Spanish PC-GITA 数据集上使用 Adam 优化器训练,进行 10 折说话人独立交叉验证。
- 通过 YourTTS 和 XTTS 进行生成性增强的合成数据;通过将 CHiME3 噪声在随机信噪比下混合来创建带噪样本。
- 以 PESQ 和 fwSSNR 作为主要指标(ΔPESQ、ΔfwSSNR)。
- 考察增强比例和策略对病理性与神经典性(neurotypical)说话人两者的影响。
实验结果
研究问题
- RQ1变换性、生成性与噪声增强是否提升病理性语音的 SE 性能?
- RQ2增强比例和 SE 模型类型如何影响每种 DA 类别的有效性?
- RQ3哪些 DA 策略在病理性与神经典性语音上具备更好的泛化?
- RQ4对于为何某些增强有助于或损害病理性语音性能,存在哪些解释?
- RQ5基于增强的增益能在多大程度上使病理性语音 SE 接近神经典性性能?
主要发现
- 噪声增强在所有模型和所有增强比例下获得最大且最稳健的增益。
- 变换性增强提供中等程度的改进(时间拉伸与 SpecMix),而音高移位可能降低性能。
- 生成性增强影响有限或为负,尤其在较高增强比例下,因为神经典性训练的 TTS 与病理性语音之间存在不匹配。
- CR 模型整体从 DA 中获益多于 SB 模型,且对变换性增强的影响依赖模型。
- 激进的增强(如 400%)可能因条件分布的变异性增加而损害 SB 的性能。
- 即使有 DA 增益,神经典性与病理性语音之间仍存在性能差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。