Skip to main content
QUICK REVIEW

[论文解读] musicnn: Pre-trained convolutional neural networks for music audio tagging

Jordi Pons, Xavier Serra|arXiv (Cornell University)|Sep 14, 2019
Music and Audio Processing参考文献 5被引用 41
一句话总结

本文提出用于音乐标签的预训练音乐动机CNN(musicnn),以及 VGG 风格的基线模型,在 MagnaTagATune 和 Million Song Dataset 上训练,具备标签、特征提取和迁移学习的能力。

ABSTRACT

Pronounced as "musician", the musicnn library contains a set of pre-trained musically motivated convolutional neural networks for music audio tagging: https://github.com/jordipons/musicnn. This repository also includes some pre-trained vgg-like baselines. These models can be used as out-of-the-box music audio taggers, as music feature extractors, or as pre-trained models for transfer learning. We also provide the code to train the aforementioned models: https://github.com/jordipons/musicnn-training. This framework also allows implementing novel models. For example, a musically motivated convolutional neural network with an attention-based output layer (instead of the temporal pooling layer) can achieve state-of-the-art results for music audio tagging: 90.77 ROC-AUC / 38.61 PR-AUC on the MagnaTagATune dataset --- and 88.81 ROC-AUC / 31.51 PR-AUC on the Million Song Dataset.

研究动机与目标

  • 发布用于音乐标签的预训练音乐动机 CNN(musicnn)。
  • 提供开箱即用的标签和特征提取能力。
  • 通过预训练嵌入实现下游任务的迁移学习。
  • 提供用于比较的 VGG 风格基线以及可重复训练的框架。

提出的方法

  • 在 MagnaTagATune (MTT) 和 Million Song Dataset (MSD) 上训练音乐动机 CNN(musicnn)。
  • 提供基于 MSD 的更大模型(MSD_musicnn_big),以利用更多数据。
  • 提供用于比较的 VGG 风格基线模型(MTT_vgg、MSD_vgg)。
  • 公开最高标签化工具和返回诸如音色、时间以及 CNN 特征的特征提取器。
  • 展示使用在先前提取特征上的 SVM 分类器进行的迁移学习,并包含 PCA 步骤。
  • 公布训练代码和体系结构细节以促进可重复性。

实验结果

研究问题

  • RQ1预训练的 musicnn 和 vgg 模型是否能够在 MagnaTagATune 和 MSD 数据集上实现最先进的标签化?
  • RQ2相较于其他音频表示,基于 musicnn 的嵌入作为迁移学习特征的表现如何?
  • RQ3MTT 与 MSD 训练模型的对比性能及模型大小对 MSD 的影响如何?
  • RQ4基于注意力的变体是否能提升相对于标准的 musicnn/VGG 架构的标签性能?

主要发现

模型数据集ROC-AUCPR-AUC
MTT_musicnnMagnaTagATune90.6938.44
MTT_vggMagnaTagATune90.2638.19
MSD_musicnnMillion Song Dataset88.0128.90
MSD_musicnn_bigMillion Song Dataset88.4130.02
MSD_vggMillion Song Dataset87.6728.19
MTT_musicnn_attentionMagnaTagATune (attention variant)90.7738.61
MSD_musicnn_attentionMillion Song Dataset (attention variant)88.8131.51
  • MTT_musicnn 在 MagnaTagATune 上实现 90.69 ROC-AUC 和 38.44 PR-AUC。
  • MTT_vgg 在 MagnaTagATune 上实现 90.26 ROC-AUC 和 38.19 PR-AUC。
  • MSD_musicnn 在 MSD 上实现 88.01 ROC-AUC 和 28.90 PR-AUC。
  • MSD_musicnn_big 在 MSD 上实现 88.41 ROC-AUC 和 30.02 PR-AUC。
  • MSD_vgg 在 MSD 上实现 87.67 ROC-AUC 和 28.19 PR-AUC。
  • 据报道,基于注意力的变体在 MagnaTagATune 上获得 90.77 ROC-AUC 和 38.61 PR-AUC,在 MSD 上获得 88.81 ROC-AUC 和 31.51 PR-AUC。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。