[论文解读] Toward Interpretable Music Tagging with Self-Attention
提出一种基于自注意力的背端用于音乐标签,配合 CNN 前端,取得有竞争力的结果并提供可解释的注意力可视化。
Self-attention is an attention mechanism that learns a representation by relating different positions in the sequence. The transformer, which is a sequence model solely based on self-attention, and its variants achieved state-of-the-art results in many natural language processing tasks. Since music composes its semantics based on the relations between components in sparse positions, adopting the self-attention mechanism to solve music information retrieval (MIR) problems can be beneficial. Hence, we propose a self-attention based deep sequence model for music tagging. The proposed architecture consists of shallow convolutional layers followed by stacked Transformer encoders. Compared to conventional approaches using fully convolutional or recurrent neural networks, our model is more interpretable while reporting competitive results. We validate the performance of our model with the MagnaTagATune and the Million Song Dataset. In addition, we demonstrate the interpretability of the proposed architecture with a heat map visualization.
研究动机与目标
- 超越局部时频特征,建模更长时域的音乐上下文。
- 探索自注意力作为背端以提高音乐标签的可解释性。
- 比较基于声谱图的前端与原始音频前端在注意力为后端下的表现。
- 通过注意力热图和标签级贡献图展示可视解释性。
提出的方法
- 使用两种前端:基于声谱图的 Spec,具有垂直/水平滤波器,以及基于原始波形的 Raw 前端。
- 使用背端:CNN P(来自 Pons 等人的声谱图背端)、CNN L(逐样本的 CNN 背端),以及 Att(多头自注意力背端)。
- 在自注意力背端之上集成一个前端,其中每个时间- bin 特征作为注意力的一个 token。
- 采纳一个 SWATS 启发式优化:先用 ADAM 训练 60 个 epoch,然后切换到带动量的 SGD,并选择最佳验证 AUROC 进行切换。
- 在 MagnaTagATune (MTAT) 和 Million Song Dataset (MSD) 上使用 AUROC 和 AUPR 作为评估指标进行训练和评估。
实验结果
研究问题
- RQ1自注意力背端是否能够捕捉用于多标签标注的长程音乐结构?
- RQ2用自注意力背端替代传统的 RNN/CNN 背端,是否在 MTAT 与 MSD 上仍能保持竞争性能?
- RQ3注意力可视化是否提供对哪些音频区域支持标签的可解释洞察?
主要发现
| 数据集 | 前端 | 背端 | AUROC | AUPR |
|---|---|---|---|---|
| MTAT | Raw | CNN L | 90.62 | 44.20 |
| MTAT | Raw | Att (Ours) | 90.66 | 44.21 |
| MTAT | Spec | CNN P | 90.89 | 45.03 |
| MTAT | Spec | Att (Ours) | 90.80 | 44.39 |
| MSD | Raw | CNN L | 88.42 | - |
| MSD | Raw | Att (Ours) | 88.07 | 29.90 |
| MSD | Spec | CNN P | 88.75 | 31.24 |
| MSD | Spec | Att (Ours) | 88.14 | 30.47 |
- Att 后端配合 Spec 前端在 MTAT 与 MSD 上相对于基线具有竞争力的 AUROC 和 AUPR。
- 注意力模型需要仔细调优(2 层注意力,8 个头)以获得最佳性能。
- 更长的输入序列(≈16.4s)实现与较短输入相当的结果,同时增加了内存使用。
- 注意力热图显示模型关注音频事件区域,包括对安静标签中的非目标区域的强响应。
- 按标签的贡献热图有助于识别对特定标签最相关的输入区域。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。