Skip to main content
QUICK REVIEW

[论文解读] DNN and CNN with Weighted and Multi-task Loss Functions for Audio Event Detection

Huy Phan, Martin Krawczyk-Becker|arXiv (Cornell University)|Aug 10, 2017
Music and Audio Processing参考文献 18被引用 31
一句话总结

本论文提出了一种基于深度神经网络(DNN)和卷积神经网络(CNN)的音频事件检测系统,采用加权损失函数与多任务损失函数,以解决罕见音频事件检测中的类别不平衡问题与时间结构建模挑战。通过整合相位感知信号增强与任务特定损失函数,该系统在评估数据集上实现了88.3%的F1分数与0.22的错误率,显著优于DCASE 2017基线模型(64.1% F1,错误率为0.64)。

ABSTRACT

This report presents our audio event detection system submitted for Task 2, "Detection of rare sound events", of DCASE 2017 challenge. The proposed system is based on convolutional neural networks (CNNs) and deep neural networks (DNNs) coupled with novel weighted and multi-task loss functions and state-of-the-art phase-aware signal enhancement. The loss functions are tailored for audio event detection in audio streams. The weighted loss is designed to tackle the common issue of imbalanced data in background/foreground classification while the multi-task loss enables the networks to simultaneously model the class distribution and the temporal structures of the target events for recognition. Our proposed systems significantly outperform the challenge baseline, improving F-score from 72.7% to 90.0% and reducing detection error rate from 0.53 to 0.18 on average on the development data. On the evaluation data, our submission obtains an average F1-score of 88.3% and an error rate of 0.22 which are significantly better than those obtained by the DCASE baseline (i.e. an F1-score of 64.1% and an error rate of 0.64).

研究动机与目标

  • 解决音频事件检测中的类别不平衡问题,特别是针对大量背景帧中稀少的前景事件。
  • 通过多任务学习框架联合建模事件类别分布与时间起始/终止点,提升识别性能。
  • 通过时频域内最先进的相位感知信号增强技术,提升模型对噪声的鲁棒性。
  • 构建统一的多类别检测系统,同时检测婴儿哭声、玻璃破碎与枪声事件,避免针对每类事件单独优化。
  • 通过阈值与平滑窗口调优优化推理过程,以在开发数据集上最大化F1分数。

提出的方法

  • 采用相位感知信号增强技术,利用含噪短时傅里叶变换(STFT)的幅度谱估计并重建干净相位,提升输入信号质量。
  • 提取对数Gammatone频谱系数作为DNN与CNN模型的输入特征,并针对每类网络结构进行定制化预处理。
  • 实施两阶段检测流程:第一阶段,使用二分类器剔除背景帧;第二阶段,使用多分类器区分婴儿哭声、玻璃破碎与枪声事件。
  • 设计加权损失函数,对误检为背景的事件(即漏检)施加更高惩罚,以缓解前景/背景分类中的类别不平衡问题。
  • 引入多任务损失函数,结合交叉熵损失用于类别预测与L2损失用于起始/终止点回归,实现类别与时间结构的联合建模。
  • 使用Adam优化器对DNN训练200个周期,对CNN训练5个周期,学习率设为1e-4,并通过网格搜索调优推理阶段的阈值与平滑窗口。

实验结果

研究问题

  • RQ1加权损失函数是否能通过减少类别不平衡数据中误检为背景的错误,提升罕见音频事件的检测性能?
  • RQ2联合优化分类任务与时间边界回归的多任务损失函数,是否能增强模型泛化能力与检测准确率?
  • RQ3在检测人类生成事件(如婴儿哭声)与非人类生成事件(如玻璃破碎、枪声)时,DNN与CNN的性能表现如何比较?
  • RQ4相位感知信号增强在多大程度上提升了深度学习模型在音频事件检测中的鲁棒性?
  • RQ5单一统一的多类别检测系统是否能在罕见音频事件检测中超越针对特定类别优化的模型?

主要发现

  • 所提系统在DCASE 2017开发集上实现了平均90.0%的F1分数与0.18的检测错误率,相较基线模型(72.7% F1,错误率0.53)提升了17.3个百分点。
  • 在测试集上,系统实现了88.3%的F1分数与0.22的错误率,显著优于DCASE 2017基线模型(64.1% F1,错误率0.64)。
  • 对于人类生成的婴儿哭声事件,基于CNN的系统优于基于DNN的系统,可能归因于其在不同说话人之间学习不变特征的能力。
  • 对于非人类事件(玻璃破碎与枪声),DNN系统表现优于CNN系统,表明当时间-频谱模式不适合池化操作时,卷积操作可能降低性能。
  • 性能最佳的系统结合了CNN用于婴儿哭声检测与DNN用于玻璃破碎与枪声检测,表明模型选择应根据事件类型而定。
  • 使用接近0.5事件存在率的平滑窗口长度有助于防止过拟合,并提升在未见数据上的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。