Skip to main content
QUICK REVIEW

[论文解读] RemixIT: Continual self-training of speech enhancement models via bootstrapped remixing

Efthymios Tzinis, Yossi Adi|arXiv (Cornell University)|Feb 17, 2022
Speech Recognition and Synthesis参考文献 71被引用 45
一句话总结

RemixIT 是一种自监督的持续自我训练框架,用于语音增强,通过将预训练教师模型生成的伪估计语音和噪声进行排列与重混,构建自举训练混合信号,从而消除对领域内干净语音或噪声数据的依赖。该方法在多个数据集上实现了最先进性能,包括在 DNS 数据集上达到 7.3 dB 的 SI-SDRi,在 WHAM! 数据集上达到 6.9 dB,且无需任何领域内干净目标,展示了强大的零样本域适应能力,并通过教师-学生蒸馏与动态伪目标优化实现持续性能提升。

ABSTRACT

We present RemixIT, a simple yet effective self-supervised method for training speech enhancement without the need of a single isolated in-domain speech nor a noise waveform. Our approach overcomes limitations of previous methods which make them dependent on clean in-domain target signals and thus, sensitive to any domain mismatch between train and test samples. RemixIT is based on a continuous self-training scheme in which a pre-trained teacher model on out-of-domain data infers estimated pseudo-target signals for in-domain mixtures. Then, by permuting the estimated clean and noise signals and remixing them together, we generate a new set of bootstrapped mixtures and corresponding pseudo-targets which are used to train the student network. Vice-versa, the teacher periodically refines its estimates using the updated parameters of the latest student models. Experimental results on multiple speech enhancement datasets and tasks not only show the superiority of our method over prior approaches but also showcase that RemixIT can be combined with any separation model as well as be applied towards any semi-supervised and unsupervised domain adaptation task. Our analysis, paired with empirical evidence, sheds light on the inside functioning of our self-training scheme wherein the student model keeps obtaining better performance while observing severely degraded pseudo-targets.

研究动机与目标

  • 解决现有语音增强方法在训练中依赖领域内干净语音或噪声数据的局限性。
  • 开发一种自监督学习框架,实现在无真实干净信号访问的情况下,对领域内噪声混合信号进行持续、数据高效的适应。
  • 通过利用预训练的领域外教师模型生成的伪标签,克服零样本和半监督设置下的域偏移问题。
  • 仅使用领域内噪声混合信号和领域外噪声源,实现鲁棒且可扩展的域适应,避免对外部模态或领域内数据的依赖。

提出的方法

  • 在领域外(OOD)数据上预训练的教师模型对领域内噪声混合信号进行推理,生成伪估计的语音和噪声分量。
  • 将估计的语音和噪声分量在批次内随机排列并重新混合,形成新的自举混合信号,作为学生模型的增强训练数据。
  • 学生模型通过信号级损失函数(如 SI-SDR)学习回归教师模型的伪估计干净语音,实现自监督学习。
  • 通过运行平均或顺序更新协议,定期使用学生模型的权重更新教师模型,实现伪标签的持续优化。
  • 扩展方法允许通过伯努利采样策略将领域内噪声录音与教师估计结果混合,以进一步提升性能。
  • 该框架支持无监督和半监督学习,且与任何分离模型架构兼容。

实验结果

研究问题

  • RQ1自训练框架是否能在不依赖任何领域内干净语音或噪声波形的情况下,实现最先进的语音增强性能?
  • RQ2当伪目标严重退化时,教师与学生模型之间持续的双向知识蒸馏如何提升性能?
  • RQ3教师估计分量的自举重混方法在真实世界噪声语音中跨域偏移的泛化能力如何?
  • RQ4仅使用领域内噪声混合信号和领域外数据,该方法是否能实现有效的零样本和半监督域适应?
  • RQ5将孤立的领域内噪声录音整合到自举重混过程中,对性能有何影响?

主要发现

  • 在 DNS 测试集上,RemixIT 在未使用任何领域内干净数据的情况下实现了 7.3 dB 的 SI-SDRi,优于初始的 OOD 教师模型(6.1 dB)和最先进基线方法。
  • 在 WHAM! 数据集上,RemixIT 在仅使用领域内混合信号和 OOD 教师估计的半监督设置下实现了 6.9 dB 的 SI-SDRi,超越了先前的自监督方法。
  • 该方法在多个数据集(包括 DNS、LFSD 和 WHAM!)上均表现出一致的性能提升,即使从一个较弱的 OOD 教师模型开始也如此。
  • 将孤立的领域内噪声录音整合到重混过程中可进一步提升性能,在 DNS 上 SI-SDRi 从 6.1 dB 提升至 6.4 dB,在 WHAM! 上从 8.6 dB 提升至 9.0 dB,当使用等量的领域内噪声和混合数据时。
  • 实证与理论分析证实,即使在极嘈杂的伪目标上进行训练,学生模型仍能持续改进,验证了自训练动态的鲁棒性。
  • 该框架实现了有效的零样本和半监督域适应,当可用领域内数据有限时,性能可与监督基线方法相媲美。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。