[论文解读] Surrey-cvssp system for DCASE2017 challenge task4
本论文提出了一种基于卷积神经网络(CNN)和门控循环单元(GRU)的深度学习系统,采用可学习门控激活函数与注意力机制,用于在DCASE2017任务4数据集上进行弱监督音频标记与声音事件检测。该方法在开发集上取得了61%的F1分数,在评估集上音频标记任务排名首位,声音事件检测任务排名第二,显著优于基线模型。
In this technique report, we present a bunch of methods for the task 4 of Detection and Classification of Acoustic Scenes and Events 2017 (DCASE2017) challenge. This task evaluates systems for the large-scale detection of sound events using weakly labeled training data. The data are YouTube video excerpts focusing on transportation and warnings due to their industry applications. There are two tasks, audio tagging and sound event detection from weakly labeled data. Convolutional neural network (CNN) and gated recurrent unit (GRU) based recurrent neural network (RNN) are adopted as our basic framework. We proposed a learnable gating activation function for selecting informative local features. Attention-based scheme is used for localizing the specific events in a weakly-supervised mode. A new batch-level balancing strategy is also proposed to tackle the data unbalancing problem. Fusion of posteriors from different systems are found effective to improve the performance. In a summary, we get 61% F-value for the audio tagging subtask and 0.73 error rate (ER) for the sound event detection subtask on the development set. While the official multilayer perceptron (MLP) based baseline just obtained 13.1% F-value for the audio tagging and 1.02 for the sound event detection.
研究动机与目标
- 解决使用标注有限的YouTube音频片段进行大规模弱监督声音事件检测的问题。
- 提升在Google AudioSet子集获取的不平衡、弱标签数据上的音频标记与声音事件检测性能。
- 构建一个鲁棒的深度学习框架,仅使用片段级标签即可有效定位事件并分类场景。
- 通过新颖的训练与融合策略克服数据不平衡问题,提升模型泛化能力。
提出的方法
- 引入一种可学习门控激活函数,通过线性变换与可学习Sigmoid门控结合,选择性增强有信息量的局部特征。
- 采用批次级别平衡策略,确保每个训练批次中至少包含一个低频类别样本,以缓解数据不平衡问题。
- 应用基于注意力的机制,在无需帧级标注的情况下实现时间域上的声音事件定位。
- 采用两级融合策略,结合多个模型及模型迭代的预测结果,提升模型鲁棒性与性能。
- 网络架构采用堆叠的CNN模块,配合批归一化与双向GRU-RNN进行时序建模,保持完整的时序分辨率。
- 提取频谱图、对数梅尔滤波器组与梅尔频率倒谱系数(MFCC)特征,并作为模型的输入。
实验结果
研究问题
- RQ1当仅提供弱标签音频片段时,深度学习模型如何有效检测并定位声音事件?
- RQ2哪些技术可缓解大规模音频数据集中严重类别不平衡导致的性能下降?
- RQ3可学习门控机制是否能提升弱监督音频分类中的特征选择能力与模型性能?
- RQ4在无帧级标注的情况下,基于注意力的定位方法在多大程度上可提升检测准确率?
- RQ5模型融合在弱监督音频事件检测任务中,对提升鲁棒性与性能的效用如何?
主要发现
- 所提出的系统在开发集上的音频标记任务中取得了61%的F1分数,显著优于DCASE2017基线的13.1% F1分数。
- 在声音事件检测任务中,系统在开发集上的误差率为0.73,优于基线的1.02误差率。
- 在评估集中,系统在音频标记任务中排名第一,报告的F1分数为55.6%。
- 在评估集中,系统在声音事件检测任务中排名第二,取得了51.8%的F1分数与0.73的误差率。
- 通过融合多个模型及训练迭代结果,性能得到提升,证明了集成学习在弱监督设置下的有效性。
- 注意力机制成功实现了时间域上的声音事件定位,可视化结果展示了测试片段中预测结果与参考标注的对比。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。