[论文解读] Multi-level Attention Model for Weakly Supervised Audio Classification
该论文将单层注意力模型扩展到多层注意力框架,在中间层应用注意力模块,取得比以往方法在 Audio Set 上更高的平均精确度(mAP)。
In this paper, we propose a multi-level attention model to solve the weakly labelled audio classification problem. The objective of audio classification is to predict the presence or absence of audio events in an audio clip. Recently, Google published a large scale weakly labelled dataset called Audio Set, where each audio clip contains only the presence or absence of the audio events, without the onset and offset time of the audio events. Our multi-level attention model is an extension to the previously proposed single-level attention model. It consists of several attention modules applied on intermediate neural network layers. The output of these attention modules are concatenated to a vector followed by a multi-label classifier to make the final prediction of each class. Experiments shown that our model achieves a mean average precision (mAP) of 0.360, outperforms the state-of-the-art single-level attention model of 0.327 and Google baseline of 0.314.
研究动机与目标
- 解决每个片段仅知道事件的存在/不存在的弱标注音频分类问题。
- 利用中间神经网络层的多层表示来提升事件检测。
- 证明将多层关注特征拼接后在 Audio Set 上获得更优的性能。
提出的方法
- 在神经网络的多个中间层之后应用注意力模块。
- 计算来自每个注意力模块的预测作为 y^(l) 并将它们拼接成一个向量 u。
- 使用带有 sigmoid 激活的最终全连接层来产生类别概率。
- 使用 dropout 和批归一化进行训练,采用 Adam 优化器。
- 比较九种变体,包括单层和多层架构。
- 使用 Audio Set 的 mAP、AUC 和 d-prime 进行评估。
实验结果
研究问题
- RQ1在多个网络层引入注意力是否会提升弱标注音频分类在 Audio Set 上的性能?
- RQ2哪种多层注意力配置在性能和复杂度之间达到最佳权衡?
- RQ3与单层注意力与 Google 基线相比,在关键指标(mAP、AUC、d-prime)上多层特征有何差异?
主要发现
- 多层注意力模型在 mAP、AUC 和 d-prime 方面均优于 Google 基线和单层注意力模型。
- 最佳架构(2-A-1-A)在 mAP 上达到 0.360,而基线为 0.314,先前工作为 0.327。
- 将多层特征拼接提供了更丰富的表征,使每个类别都能受益于不同层级的表征。
- 并非所有类别的性能提升都相同;某些类别更偏好不同的架构。
- 总体而言,多层特征拼接在大多数类别上提高了性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。