Skip to main content
QUICK REVIEW

[论文解读] A Four-Stage Data Augmentation Approach to ResNet-Conformer Based Acoustic Modeling for Sound Event Localization and Detection

Qing Wang, Jun Du|arXiv (Cornell University)|Jan 8, 2021
Speech and Audio Processing参考文献 61被引用 24
一句话总结

本文提出了一种四阶段数据增强方法——结合音频通道互换、多通道仿真、时域混合和时频掩蔽——并搭配ResNet-Conformer架构,以提升声音事件定位与检测(SELD)性能。该方法显著增强了模型的泛化能力与性能,在DCASE 2020和2022年SELD挑战赛中均获得第一名,SELD得分分别从0.40降至0.17和0.28。

ABSTRACT

In this paper, we propose a novel four-stage data augmentation approach to ResNet-Conformer based acoustic modeling for sound event localization and detection (SELD). First, we explore two spatial augmentation techniques, namely audio channel swapping (ACS) and multi-channel simulation (MCS), to deal with data sparsity in SELD. ACS and MDS focus on augmenting the limited training data with expanding direction of arrival (DOA) representations such that the acoustic models trained with the augmented data are robust to localization variations of acoustic sources. Next, time-domain mixing (TDM) and time-frequency masking (TFM) are also investigated to deal with overlapping sound events and data diversity. Finally, ACS, MCS, TDM and TFM are combined in a step-by-step manner to form an effective four-stage data augmentation scheme. Tested on the Detection and Classification of Acoustic Scenes and Events (DCASE) 2020 data set, our proposed augmentation approach greatly improves the system performance, ranking our submitted system in the first place in the SELD task of the DCASE 2020 Challenge. Furthermore, we employ a ResNet-Conformer architecture to model both global and local context dependencies of an audio sequence and win the first place in the DCASE 2022 SELD evaluations.

研究动机与目标

  • 通过数据增强方法,解决基于深度学习的声音事件定位与检测(SELD)中数据稀疏性和过拟合问题。
  • 通过空间与时间增强,提升模型对重叠声音事件中方向性和时间变化的鲁棒性。
  • 开发一种混合声学模型,以捕捉音频的局部与全局上下文信息,从而提升SELD性能。
  • 在DCASE 2020和2022年SELD基准数据集上实现最先进性能。

提出的方法

  • 引入音频通道互换(ACS),通过随机交换立体声录音中的麦克风通道,增强到达方向(DOA)表征。
  • 提出多通道仿真(MCS),用于为孤立声音事件合成逼真的多通道音频,提升DOA多样性。
  • 应用时域混合(TDM),通过混合具有不同信噪比的音频片段,模拟重叠声音事件。
  • 采用时频掩蔽(TFM),增强频谱可变性,提升对噪声和重叠事件的鲁棒性。
  • 将四种增强阶段按步骤整合为一个渐进式流水线,逐步提升训练数据的多样性。
  • 采用ResNet-Conformer架构,结合卷积层与自注意力机制,以建模音频序列中的局部与长程依赖关系。

实验结果

研究问题

  • RQ1在训练数据有限的低资源SELD场景下,数据增强技术在多大程度上能提升泛化能力?
  • RQ2空间增强方法(如ACS与MCS)在多大程度上能提升SELD系统中DOA估计的鲁棒性?
  • RQ3混合的ResNet-Conformer架构是否能在捕捉SELD任务中的局部与全局音频上下文方面优于传统模型?
  • RQ4与单一或随机增强相比,分阶段、多阶段数据增强策略在SELD性能上有何差异?
  • RQ5结合空间、时间与频谱增强对重叠声音事件检测与定位有何影响?

主要发现

  • 四阶段数据增强方法将DCASE 2020数据集的SELD得分从0.40降至0.17,相对提升达57.5%。
  • 与基线相比,F20°提升0.27%,定位误差(LECD)降低15.4%。
  • 在DCASE 2020数据集上,采用完整数据增强的ResNet-Conformer模型取得0.17的SELD得分,位列挑战赛第一。
  • 在DCASE 2022数据集上,该方法将仅使用ResNet-Conformer时的SELD得分从0.47降至0.28(采用集成策略),再次夺得第一。
  • 可视化结果表明,增强后的模型能正确检测短时与重叠事件,而未增强模型在这些情况下出现失败。
  • 性能提升在重叠事件与瞬态事件中最为显著,证明该增强方法在处理复杂声学场景中的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。