[论文解读] Sound event detection using weakly labeled dataset with stacked convolutional and recurrent neural network
本文提出一种堆叠卷积神经网络与循环神经网络的模型,配备双预测头,用于从仅提供事件类别而无时间标注的弱监督音频数据中检测声音事件边界(强标签)。通过联合训练帧级强标签(由弱标签复制生成)与弱标签,并采用自适应损失加权,该模型在155小时的数据集上实现了0.84的强标签错误率和43.3%的弱标签F1分数,证明了仅用极少监督信号即可实现有效的自监督时间定位。
This paper proposes a neural network architecture and training scheme to learn the start and end time of sound events (strong labels) in an audio recording given just the list of sound events existing in the audio without time information (weak labels). We achieve this by using a stacked convolutional and recurrent neural network with two prediction layers in sequence one for the strong followed by the weak label. The network is trained using frame-wise log mel-band energy as the input audio feature, and weak labels provided in the dataset as labels for the weak label prediction layer. Strong labels are generated by replicating the weak labels as many number of times as the frames in the input audio feature, and used for strong label layer during training. We propose to control what the network learns from the weak and strong labels by different weighting for the loss computed in the two prediction layers. The proposed method is evaluated on a publicly available dataset of 155 hours with 17 sound event classes. The method achieves the best error rate of 0.84 for strong labels and F-score of 43.3% for weak labels on the unseen test split.
研究动机与目标
- 开发一种深度学习方法,仅基于事件类别列表(弱标签)而无需时间标注,学习精确的声音事件边界(强标签)。
- 通过利用弱监督数据实现大规模声音事件检测,降低强标签的标注成本。
- 通过设计一种从弱监督中学习帧级预测的网络,提升声音事件检测的时间分辨率。
- 研究强标签与弱标签预测头之间损失加权对模型性能的影响。
- 在包含17种声音事件类别和155小时音频的公开大规模数据集上验证该方法。
提出的方法
- 采用堆叠卷积神经网络与循环神经网络(CNN-GRU)作为主干网络,处理从音频中提取的对数梅尔倒谱系数特征。
- 网络包含两个连续的预测头:一个用于帧级强标签(事件起止时间),另一个用于弱标签(音频片段中事件的存在性)。
- 强标签通过将弱标签向量在整个输入音频特征序列的所有帧上复制生成。
- 模型使用两种损失函数的加权组合进行训练:一种用于强标签预测,另一种用于弱标签预测。
- 在训练过程中动态调整强标签头与弱标签头的损失权重,以控制网络对学习时间边界与事件存在性的关注程度。
- 使用显著性图可视化网络关注的输入特征,提升对学习到的声音事件表征的可解释性。
实验结果
研究问题
- RQ1深度神经网络能否仅从无时间信息的弱监督音频数据中学习到准确的声音事件边界?
- RQ2强标签与弱标签损失的相对权重如何影响模型学习精确时间边界的能力?
- RQ3当仅使用弱监督数据训练时,所提出的架构是否优于现有声音事件检测方法?
- RQ4哪些类型的声音事件最可靠、最不可靠地被模型检测到,原因是什么?
- RQ5网络的内部表征在多大程度上可被解释为学习到了特定事件的相关音频模式?
主要发现
- 该模型在DCASE 2017数据集的未见测试集上实现了0.84的强标签错误率和43.3%的弱标签F1分数。
- 当对强标签与弱标签预测头采用相等的损失权重时,性能最佳,这与初始直觉相反——即认为提高弱标签损失权重会带来更好结果。
- 当强标签损失权重更高时,模型在强标签检测方面表现更优(错误率=0.84),但弱标签性能下降,表明两项目标之间存在权衡。
- 车辆类声音(如火车、滑板)和警告信号(如消防车警报、民防警报)的F1分数超过60%,而救护车警报和汽车防盗警报的得分则为零。
- 显著性图可视化结果证实,网络能够学习关注对数梅尔倒谱系数输入中与实际声音事件相对应的时间区域。
- 该方法优于依赖上采样或基于片段训练的先前方法,得益于其端到端的帧级预测设计,实现了更高的时间分辨率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。