Skip to main content
QUICK REVIEW

[论文解读] Transfer learning for music classification and regression tasks

Keunwoo Choi, György Fazekas|arXiv (Cornell University)|Mar 27, 2017
Music and Audio Processing参考文献 50被引用 125
一句话总结

这篇论文在音乐标签上训练一个预先标注的卷积神经网络,并将其多层特征迁移到六个目标音乐与音频任务,在性能上优于 MFCC 基线,并与任务特定方法具有竞争力。

ABSTRACT

In this paper, we present a transfer learning approach for music classification and regression tasks. We propose to use a pre-trained convnet feature, a concatenated feature vector using the activations of feature maps of multiple layers in a trained convolutional network. We show how this convnet feature can serve as general-purpose music representation. In the experiments, a convnet is trained for music tagging and then transferred to other music-related classification and regression tasks. The convnet feature outperforms the baseline MFCC feature in all the considered tasks and several previous approaches that are aggregating MFCCs as well as low- and high-level music features.

研究动机与目标

  • 提出迁移学习以应对音乐信息检索(MIR)中的数据稀缺性。
  • 提出一个卷积神经网络特征提取器,通过串联来自多层的激活来实现迁移。
  • 在六个多样化的音乐与音频任务上评估迁移得到的特征。
  • 将卷积网络特征与 MFCC 基线及随机权重卷积网络进行比较,以评估知识迁移与网络结构的关系。

提出的方法

  • 使用梅尔声谱图输入,在音乐标签的源任务上训练卷积神经网络。
  • 通过聚合来自多层(第1至第5层)的激活并在需要处使用平均池化,提取拼接的卷积网络特征。
  • 评估多种层组合策略(如123、135、12345)以为每个目标任务找到有效表示。
  • 在目标任务上使用支持向量机进行分类/回归,以专注于特征质量而非分类器复杂性。
  • 在六个目标任务中,将卷积网络特征与 MFCC 基线以及随机卷积网络特征进行比较。

实验结果

研究问题

  • RQ1在音乐标签上预训练的卷积网络是否可以作为多样化 MIR 任务的通用特征提取器?
  • RQ2哪些逐层特征组合能为每个目标任务提供最有效的表示?
  • RQ3卷积网络特征是否优于 MFCC 基线,以及它们与任务特定的最先进方法相比如何?
  • RQ4将 MFCC 特征与卷积网络特征拼接在这些任务中是有益还是冗余?

主要发现

  • 卷积网络特征在所有六个目标任务中均优于 MFCC 基线。
  • 来自多层的特征拼接(如 12345)往往带来最佳性能,尤其是对于复杂任务。
  • 在若干任务中,卷积网络特征单独就能与依赖手工特征或任务特定设计的最先进方法相抗衡。
  • 随机卷积网络特征的表现不及训练好的卷积网络特征,表明收益来自学习到的迁移知识,而不仅仅是网络结构。
  • 对于任务6(声学事件检测),将卷积网络特征与 MFCC 结合可以提升性能,表明存在互补信息;与其他任务不同,MFCC 增值不大。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。