Skip to main content
QUICK REVIEW

[论文解读] CNN based music emotion classification

Xin Liu, Qingcai Chen|arXiv (Cornell University)|Apr 19, 2017
Music and Audio Processing参考文献 8被引用 34
一句话总结

本文提出了一种基于CNN的音乐情感识别模型,直接以原始音频频谱图作为输入,无需人工声学特征工程。通过卷积层捕捉频谱图中的空间与时间模式,该方法在CAL500和CAL500exp数据集上实现了最先进性能,微F1分数分别为0.709和0.735。

ABSTRACT

Music emotion recognition (MER) is usually regarded as a multi-label tagging task, and each segment of music can inspire specific emotion tags. Most researchers extract acoustic features from music and explore the relations between these features and their corresponding emotion tags. Considering the inconsistency of emotions inspired by the same music segment for human beings, seeking for the key acoustic features that really affect on emotions is really a challenging task. In this paper, we propose a novel MER method by using deep convolutional neural network (CNN) on the music spectrograms that contains both the original time and frequency domain information. By the proposed method, no additional effort on extracting specific features required, which is left to the training procedure of the CNN model. Experiments are conducted on the standard CAL500 and CAL500exp dataset. Results show that, for both datasets, the proposed method outperforms state-of-the-art methods.

研究动机与目标

  • 为解决人类对同一段音乐的反应不一致的问题,避免依赖人工选择的声学特征。
  • 探究深度CNN是否能从原始频谱图中自动学习判别性特征用于音乐情感识别。
  • 通过端到端深度学习方法,提升多标签音乐情感识别的最先进性能。
  • 验证基于频谱图的CNN在标准基准数据集CAL500和CAL500exp上的有效性。

提出的方法

  • 模型使用通过短时傅里叶变换计算得到的原始频谱图作为输入,保留了时间和频率域的信息。
  • 采用包含多个卷积和池化层的深度CNN架构,从频谱图中提取分层的空间-时间特征。
  • 网络在时间轴和频率轴上执行局部卷积操作,以处理长度可变的音乐片段。
  • 最后一层使用Softmax分类器输出多标签情感预测结果。
  • 通过随机梯度下降和交叉熵损失进行端到端训练,以F1分数为优化目标。
  • 通过在验证集上进行10折交叉验证,对卷积核大小、步长和学习率等超参数进行调优。

实验结果

研究问题

  • RQ1在音乐情感识别中,直接在频谱图上训练的CNN模型是否能超越依赖手工特征工程的现有方法?
  • RQ2与传统特征工程相比,使用原始频谱图在情感分类性能上表现如何?
  • RQ3网络架构与训练策略对标准数据集上多标签情感识别性能有何影响?
  • RQ4为何该模型在CAL500exp上表现优于CAL500?导致这一差异的因素有哪些?

主要发现

  • 在CAL500exp数据集上,所提出的CNN模型实现了0.735的微F1分数,优于先前的最先进方法。
  • 在CAL500数据集上,模型实现了0.640的微F1分数,展现出对现有方法的一致性改进。
  • 在CAL500exp上,模型实现了0.596的宏F1分数,在CAL500上为0.472,表明在所有情感类别上均表现良好。
  • 在CAL500exp上,模型将汉明损失降低至0.212,在CAL500上为0.325,表明标签预测的一致性更强。
  • 在CAL500exp上,AUC分数达到0.799,在CAL500上为0.675,证实了更强的判别能力。
  • CAL500与CAL500exp之间的性能差距归因于CAL500训练集规模较小以及标注模糊。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。