[论文解读] musicnn: Pre-trained convolutional neural networks for music audio tagging
本文提出用于音乐标签的预训练音乐动机CNN(musicnn),以及 VGG 风格的基线模型,在 MagnaTagATune 和 Million Song Dataset 上训练,具备标签、特征提取和迁移学习的能力。
Pronounced as "musician", the musicnn library contains a set of pre-trained musically motivated convolutional neural networks for music audio tagging: https://github.com/jordipons/musicnn. This repository also includes some pre-trained vgg-like baselines. These models can be used as out-of-the-box music audio taggers, as music feature extractors, or as pre-trained models for transfer learning. We also provide the code to train the aforementioned models: https://github.com/jordipons/musicnn-training. This framework also allows implementing novel models. For example, a musically motivated convolutional neural network with an attention-based output layer (instead of the temporal pooling layer) can achieve state-of-the-art results for music audio tagging: 90.77 ROC-AUC / 38.61 PR-AUC on the MagnaTagATune dataset --- and 88.81 ROC-AUC / 31.51 PR-AUC on the Million Song Dataset.
研究动机与目标
- 发布用于音乐标签的预训练音乐动机 CNN(musicnn)。
- 提供开箱即用的标签和特征提取能力。
- 通过预训练嵌入实现下游任务的迁移学习。
- 提供用于比较的 VGG 风格基线以及可重复训练的框架。
提出的方法
- 在 MagnaTagATune (MTT) 和 Million Song Dataset (MSD) 上训练音乐动机 CNN(musicnn)。
- 提供基于 MSD 的更大模型(MSD_musicnn_big),以利用更多数据。
- 提供用于比较的 VGG 风格基线模型(MTT_vgg、MSD_vgg)。
- 公开最高标签化工具和返回诸如音色、时间以及 CNN 特征的特征提取器。
- 展示使用在先前提取特征上的 SVM 分类器进行的迁移学习,并包含 PCA 步骤。
- 公布训练代码和体系结构细节以促进可重复性。
实验结果
研究问题
- RQ1预训练的 musicnn 和 vgg 模型是否能够在 MagnaTagATune 和 MSD 数据集上实现最先进的标签化?
- RQ2相较于其他音频表示,基于 musicnn 的嵌入作为迁移学习特征的表现如何?
- RQ3MTT 与 MSD 训练模型的对比性能及模型大小对 MSD 的影响如何?
- RQ4基于注意力的变体是否能提升相对于标准的 musicnn/VGG 架构的标签性能?
主要发现
| 模型 | 数据集 | ROC-AUC | PR-AUC |
|---|---|---|---|
| MTT_musicnn | MagnaTagATune | 90.69 | 38.44 |
| MTT_vgg | MagnaTagATune | 90.26 | 38.19 |
| MSD_musicnn | Million Song Dataset | 88.01 | 28.90 |
| MSD_musicnn_big | Million Song Dataset | 88.41 | 30.02 |
| MSD_vgg | Million Song Dataset | 87.67 | 28.19 |
| MTT_musicnn_attention | MagnaTagATune (attention variant) | 90.77 | 38.61 |
| MSD_musicnn_attention | Million Song Dataset (attention variant) | 88.81 | 31.51 |
- MTT_musicnn 在 MagnaTagATune 上实现 90.69 ROC-AUC 和 38.44 PR-AUC。
- MTT_vgg 在 MagnaTagATune 上实现 90.26 ROC-AUC 和 38.19 PR-AUC。
- MSD_musicnn 在 MSD 上实现 88.01 ROC-AUC 和 28.90 PR-AUC。
- MSD_musicnn_big 在 MSD 上实现 88.41 ROC-AUC 和 30.02 PR-AUC。
- MSD_vgg 在 MSD 上实现 87.67 ROC-AUC 和 28.19 PR-AUC。
- 据报道,基于注意力的变体在 MagnaTagATune 上获得 90.77 ROC-AUC 和 38.61 PR-AUC,在 MSD 上获得 88.81 ROC-AUC 和 31.51 PR-AUC。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。