QUICK REVIEW

[论文解读] musicnn: Pre-trained convolutional neural networks for music audio tagging

Jordi Pons, Xavier Serra|arXiv (Cornell University)|Sep 14, 2019

Music and Audio Processing参考文献 5被引用 41

一句话总结

本文提出用于音乐标签的预训练音乐动机CNN（musicnn），以及 VGG 风格的基线模型，在 MagnaTagATune 和 Million Song Dataset 上训练，具备标签、特征提取和迁移学习的能力。

ABSTRACT

Pronounced as "musician", the musicnn library contains a set of pre-trained musically motivated convolutional neural networks for music audio tagging: https://github.com/jordipons/musicnn. This repository also includes some pre-trained vgg-like baselines. These models can be used as out-of-the-box music audio taggers, as music feature extractors, or as pre-trained models for transfer learning. We also provide the code to train the aforementioned models: https://github.com/jordipons/musicnn-training. This framework also allows implementing novel models. For example, a musically motivated convolutional neural network with an attention-based output layer (instead of the temporal pooling layer) can achieve state-of-the-art results for music audio tagging: 90.77 ROC-AUC / 38.61 PR-AUC on the MagnaTagATune dataset --- and 88.81 ROC-AUC / 31.51 PR-AUC on the Million Song Dataset.

研究动机与目标

发布用于音乐标签的预训练音乐动机 CNN（musicnn）。
提供开箱即用的标签和特征提取能力。
通过预训练嵌入实现下游任务的迁移学习。
提供用于比较的 VGG 风格基线以及可重复训练的框架。

提出的方法

在 MagnaTagATune (MTT) 和 Million Song Dataset (MSD) 上训练音乐动机 CNN（musicnn）。
提供基于 MSD 的更大模型（MSD_musicnn_big），以利用更多数据。
提供用于比较的 VGG 风格基线模型（MTT_vgg、MSD_vgg）。
公开最高标签化工具和返回诸如音色、时间以及 CNN 特征的特征提取器。
展示使用在先前提取特征上的 SVM 分类器进行的迁移学习，并包含 PCA 步骤。
公布训练代码和体系结构细节以促进可重复性。

实验结果

研究问题

RQ1预训练的 musicnn 和 vgg 模型是否能够在 MagnaTagATune 和 MSD 数据集上实现最先进的标签化？
RQ2相较于其他音频表示，基于 musicnn 的嵌入作为迁移学习特征的表现如何？
RQ3MTT 与 MSD 训练模型的对比性能及模型大小对 MSD 的影响如何？
RQ4基于注意力的变体是否能提升相对于标准的 musicnn/VGG 架构的标签性能？

主要发现

模型	数据集	ROC-AUC	PR-AUC
MTT_musicnn	MagnaTagATune	90.69	38.44
MTT_vgg	MagnaTagATune	90.26	38.19
MSD_musicnn	Million Song Dataset	88.01	28.90
MSD_musicnn_big	Million Song Dataset	88.41	30.02
MSD_vgg	Million Song Dataset	87.67	28.19
MTT_musicnn_attention	MagnaTagATune (attention variant)	90.77	38.61
MSD_musicnn_attention	Million Song Dataset (attention variant)	88.81	31.51

MTT_musicnn 在 MagnaTagATune 上实现 90.69 ROC-AUC 和 38.44 PR-AUC。
MTT_vgg 在 MagnaTagATune 上实现 90.26 ROC-AUC 和 38.19 PR-AUC。
MSD_musicnn 在 MSD 上实现 88.01 ROC-AUC 和 28.90 PR-AUC。
MSD_musicnn_big 在 MSD 上实现 88.41 ROC-AUC 和 30.02 PR-AUC。
MSD_vgg 在 MSD 上实现 87.67 ROC-AUC 和 28.19 PR-AUC。
据报道，基于注意力的变体在 MagnaTagATune 上获得 90.77 ROC-AUC 和 38.61 PR-AUC，在 MSD 上获得 88.81 ROC-AUC 和 31.51 PR-AUC。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。