Skip to main content
QUICK REVIEW

[论文解读] Music Mood Detection Based On Audio And Lyrics With Deep Neural Net

Rémi Delbouys, Romain Hennequin|arXiv (Cornell University)|Sep 19, 2018
Music and Audio Processing参考文献 21被引用 31
一句话总结

本文提出了一种基于深度学习的多模态方法,结合音频与歌词进行音乐情绪检测,在唤醒度预测方面优于传统特征工程方法,同时在效价预测方面与之表现相当。主要贡献在于证明了音频与歌词模态的中级融合能显著提升效价检测性能,通过捕捉晚期融合或单模态模型无法实现的早期跨模态相关性。

ABSTRACT

1.1 Related work We consider the task of multimodal music mood prediction based on the audio signal and the lyrics of a track. We reproduce the implementation of traditional feature engineering based approaches and propose a new model based on deep learning. We compare the performance of both approaches on a database containing 18,000 tracks with associated valence and arousal values and show that our approach outperforms classical models on the arousal detection task, and that both approaches perform equally on the valence prediction task. We also compare the a posteriori fusion with fusion of modalities optimized simultaneously with each unimodal model, and observe a significant improvement of valence prediction. We release part of our database for comparison purposes.

研究动机与目标

  • 比较基于深度学习的多模态音乐情绪检测与传统特征工程方法。
  • 评估早期(中级)融合与晚期融合在结合音频与歌词模态方面的有效性。
  • 探究深度学习模型在预测连续效价与唤醒度维度方面是否优于经典方法。
  • 发布一个包含18,000首歌曲的大型数据集,附带效价与唤醒度标注,用于基准测试。
  • 探讨音频与歌词在情绪预测中的互补作用,特别是针对效价与唤醒度的差异。

提出的方法

  • 作者分别训练用于音频(使用梅尔频率倒谱系数)和歌词(使用词嵌入)的独立深度神经网络,以预测效价与唤醒度。
  • 通过在最终回归层之前拼接来自两个单模态网络的高层特征,实现中级融合策略。
  • 为进行对比,还采用通过平均独立单模态模型预测结果的晚期融合方法。
  • 模型使用全连接层与双向LSTM层,以捕捉音频与文本序列中的时间依赖性。
  • 性能通过在自建数据集(18,000首歌曲)上的回归指标进行评估,该数据集源自The Million Song Dataset与Deezer目录。
  • 作者将该方法与使用传统特征(如MFCCs、SVM、GMMs)的经典模型进行比较。

实验结果

研究问题

  • RQ1基于深度学习的多模态方法是否在音乐情绪检测中优于经典特征工程方法?
  • RQ2音频与歌词特征的中级融合是否比晚期融合或单模态预测在效价与唤醒度估计方面更有效?
  • RQ3在预测唤醒度与效价方面,哪种模态——音频或歌词——贡献更为显著?
  • RQ4端到端的深度学习模型是否能在无需专家设计的音频或文本特征的情况下,实现与手工特征相当或更优的性能?
  • RQ5跨模态相关性在提升情绪预测中的作用是什么?它们是否能通过中级融合被有效捕捉?

主要发现

  • 深度学习模型在唤醒度检测方面优于经典方法,表明端到端学习能捕捉更有效的音频表征。
  • 在效价预测方面,深度学习与经典方法表现相当,表明两者在适当调优后均具有效性。
  • 与晚期融合相比,中级融合显著提升了效价预测性能,表明早期整合跨模态信息可增强模型表现。
  • 音频特征对唤醒度具有高度预测力,而效价检测则需要两个模态协同,凸显其互补性。
  • 仅基于歌词的模型在唤醒度预测上表现较差,但通过中级融合与音频结合后,对效价预测有显著贡献。
  • 本研究证明,深度学习模型能够有效学习音频与歌词之间的中级相关性,这对准确的效价估计至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。