QUICK REVIEW

[论文解读] Stacked Convolutional and Recurrent Neural Networks for Music Emotion Recognition

M. S. S. Malik, Sharath Adavanne|arXiv (Cornell University)|Jun 7, 2017

Music and Audio Processing参考文献 26被引用 45

一句话总结

本文提出了一种轻量级堆叠CNN-RNN架构，用于在唤醒度-愉悦度空间中的连续音乐情感识别，以远少于先前方法的参数量实现了最先进性能。仅使用10,000个参数处理原始对数梅尔带能量特征，在MediaEval2015数据集上实现了0.258（平均）的RMSE，优于先前最先进系统，参数量仅为后者的1/400且误差更低。

ABSTRACT

This paper studies the emotion recognition from musical tracks in the 2-dimensional valence-arousal (V-A) emotional space. We propose a method based on convolutional (CNN) and recurrent neural networks (RNN), having significantly fewer parameters compared with the state-of-the-art method for the same task. We utilize one CNN layer followed by two branches of RNNs trained separately for arousal and valence. The method was evaluated using the 'MediaEval2015 emotion in music' dataset. We achieved an RMSE of 0.202 for arousal and 0.268 for valence, which is the best result reported on this dataset.

研究动机与目标

开发一种在唤醒度-愉悦度空间中更参数高效的深度学习模型，用于连续音乐情感识别。
评估是否可使用原始音频特征（对数梅尔带能量）替代工程化基线特征而不损失性能。
研究序列长度对情感预测回归性能的影响。
将所提出的堆叠CNN-RNN架构与现有最先进模型在准确率和模型复杂度方面进行比较。
证明神经网络可从原始特征中自主学习一阶和二阶统计量，从而减少对手工特征的依赖。

提出的方法

该方法采用堆叠架构，包含一个一维卷积层，随后是两个独立的GRU分支，分别独立预测愉悦度和唤醒度。
网络通过均方误差（MSE）损失进行端到端训练，结合L1和L2正则化以及Dropout（0.25–0.75）进行正则化。
使用两种输入特征集：基线特征（来自MediaEval2015）和原始对数梅尔带能量特征，以实现对特征工程需求的消融分析。
在多个序列长度（10、20、30、60秒）上评估模型，性能按序列长度进行分析。
提出一种变体（CRNN_NB），将两个情感维度合并至单个RNN分支，以与双分支设计的性能进行比较。
通过五次随机权重初始化进行超参数调优，基于开发集上最低平均RMSE选择最佳配置。

实验结果

研究问题

RQ1轻量级堆叠CNN-RNN模型是否能以远少于现有方法的参数量，在音乐情感识别任务中实现最先进性能？
RQ2使用原始对数梅尔带能量特征替代工程化基线特征是否会导致性能下降，还是网络能自主学习必要表征？
RQ3音频输入的序列长度如何影响模型在愉悦度和唤醒度预测上的回归准确性？
RQ4对于此回归任务，双分支架构（愉悦度和唤醒度分别使用独立RNN）是否比共享分支（CRNN_NB）更有效？
RQ5一个结构简单、超参数调优极少的网络是否能超越如Li等人基于DBLSTM的复杂集成系统？

主要发现

所提出的CRNN在MediaEval2015评估集上对唤醒度的RMSE为0.202，对愉悦度的RMSE为0.268，是该数据集报告的最佳结果。
使用原始对数梅尔带能量特征时，模型仅用10,000个参数即实现0.258（平均）的RMSE，参数量仅为Li等人系统的1/1200，且性能相当。
较短序列长度（10秒和20秒）优于较长序列（60秒），最佳RMSE达0.235，比Li等人系统低0.02。
双分支CRNN架构优于单分支CRNN_NB变体，后者虽在RMSE上与Li等人系统相当，但参数量仅为17,000。
在高Dropout率（0.75）下训练的原始特征模型泛化良好，表明深度网络可从原始梅尔谱图中自主学习关键音频统计量，无需工程化特征。
使用基线特征的CRNN在评估集上实现0.242的平均RMSE，优于Li等人系统（0.255平均RMSE），尽管参数量仅为后者的约1/400。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。