Skip to main content
QUICK REVIEW

[论文解读] Improving Sound Event Detection In Domestic Environments Using Sound Separation

Nicolas Turpault, Scott Wisdom|arXiv (Cornell University)|Jul 8, 2020
Music and Audio Processing被引用 28
一句话总结

本文提出将通用声音分离(SS)作为预处理步骤,以提升在重叠和嘈杂声音环境中家庭场景下的声音事件检测(SED)性能。通过在不同阶段(早期、中期或晚期)将分离后的音频源整合进SED系统,该方法改善了对重叠事件和低能量事件的检测效果,其中在微调后的SS模型上采用晚期融合策略时性能最佳(F1:39.2%,PSDS:0.574)。

ABSTRACT

Performing sound event detection on real-world recordings often implies dealing with overlapping target sound events and non-target sounds, also referred to as interference or noise. Until now these problems were mainly tackled at the classifier level. We propose to use sound separation as a pre-processing for sound event detection. In this paper we start from a sound separation model trained on the Free Universal Sound Separation dataset and the DCASE 2020 task 4 sound event detection baseline. We explore different methods to combine separated sound sources and the original mixture within the sound event detection. Furthermore, we investigate the impact of adapting the sound separation model to the sound event detection data on both the sound separation and the sound event detection.

研究动机与目标

  • 解决真实世界SED中重叠和非目标声音事件导致的检测性能下降问题。
  • 探究声音分离是否可通过在分类前分离目标事件来提升SED性能。
  • 探索将通用声音分离模型适配至SED特定数据以提升泛化能力的影响。
  • 比较在SED流程中将混合信号与分离源以不同策略(早期、中期、晚期)进行融合的效果。
  • 评估通过可学习融合权重结合分离源与原始混合信号的有效性。

提出的方法

  • 使用混合合成与真实数据,对在Free Universal Sound Separation(FUSS)数据集上预训练的通用声音分离(USS)模型进行微调,以适应SED特定数据。
  • 对输入混合信号应用声音分离,生成代表各个独立声源的多个分离音频轨道。
  • 采用三种策略将混合信号与分离源整合进SED流程:早期(作为输入通道拼接)、中期(在CNN特征提取后拼接)和晚期(通过可学习权重融合预测结果)。
  • 以均值教师SED模型作为基线,推理时使用学生模型,教师模型提供一致性正则化。
  • 使用修改后的损失函数训练SS模型,仅鼓励活跃声源输出非零值,从而实现可变数量声源的分离。
  • 利用验证集优化晚期融合权重(p和q),以平衡混合信号与分离源的贡献。

实验结果

研究问题

  • RQ1声音分离作为预处理步骤是否能提升在复杂家庭声学场景中重叠和非目标声音存在下的SED性能?
  • RQ2在SED特定数据上微调通用SS模型,对分离质量及后续SED性能有何影响?
  • RQ3在融合混合信号与分离音频输入时,哪种融合策略(早期、中期或晚期)能获得最佳SED性能?
  • RQ4晚期融合中可学习融合权重(p和q)如何影响不同SS模型下的SED性能?
  • RQ5SS训练条件中的差异(如合成数据与真实数据)是否会影响SED系统的泛化能力与有效性?

主要发现

  • 使用在干声FUSS数据上预训练的SS模型并结合晚期融合策略,在REC_VAL数据集上取得了最佳SED性能,F1得分为39.2%,PSDS为0.574。
  • 尽管在匹配数据上SS得分更优,但在DESED+FUSS数据上微调的SS模型泛化能力不如通用FUSS模型,导致SED性能下降。
  • 在使用FUSS预训练SS模型时,最优权重(p=2, q=2)下的晚期融合策略优于早期和中期融合,尤其在复杂场景下优势明显。
  • 当融合权重q值过高(即仅依赖混合信号或分离源)时,性能显著下降,表明平衡融合至关重要。
  • 源聚合权重p的影响因模型而异:当分离源与目标事件对齐时(如PIT模型),高p值有益;但当分离存在偏差时,其影响减弱。
  • 尽管在REC_VAL上的SS得分较低,但FUSS预训练SS模型在真实世界数据上泛化能力更强,最终在SED性能上优于任务特定SS模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。