QUICK REVIEW

[论文解读] A Dataset and Baselines for Measuring and Predicting the Music Piece Memorability

Li-Yang Tseng, Tzu-Ling Lin|arXiv (Cornell University)|Nov 4, 2023

Color perception and design被引用 2

一句话总结

本文介绍了YouTube音乐记忆度（YTMM）数据集，这是一个新颖的音乐作品集合，其记忆度分数通过用户回忆实验客观测量得出。利用该数据集，作者提出了基于深度学习和手工设计特征的基线模型——结合音频频谱图、可解释的音乐特征以及基于SHAP的可解释性方法，以预测音乐记忆度，结果表明更高的唤醒度、节拍速度和情感正向性与更高的记忆度相关。

ABSTRACT

Nowadays, humans are constantly exposed to music, whether through voluntary streaming services or incidental encounters during commercial breaks. Despite the abundance of music, certain pieces remain more memorable and often gain greater popularity. Inspired by this phenomenon, we focus on measuring and predicting music memorability. To achieve this, we collect a new music piece dataset with reliable memorability labels using a novel interactive experimental procedure. We then train baselines to predict and analyze music memorability, leveraging both interpretable features and audio mel-spectrograms as inputs. To the best of our knowledge, we are the first to explore music memorability using data-driven deep learning-based methods. Through a series of experiments and ablation studies, we demonstrate that while there is room for improvement, predicting music memorability with limited data is possible. Certain intrinsic elements, such as higher valence, arousal, and faster tempo, contribute to memorable music. As prediction techniques continue to evolve, real-life applications like music recommendation systems and music style transfer will undoubtedly benefit from this new area of research.

研究动机与目标

建立一种数据驱动的方法，用于衡量和预测音乐记忆度，这是音乐信息检索（MIR）领域中一个尚未被充分探索的课题。
通过一种交互式、受控的实验流程，收集一个可靠且大规模的数据集，其中包含客观的记忆度分数。
开发并评估基于手工特征和自监督音频表征的音乐记忆度回归（MMR）基线模型。
利用SHAP提供模型决策的可解释性，识别影响记忆度的关键音乐特征。
通过提供公开可用的数据集和基准，为未来在音乐推荐、品牌建设和内容创作方面的研究提供支持。

提出的方法

开发了一个三阶段的交互式音乐记忆游戏，以收集记忆度标签，参与者在18分钟的间隔后（中间有3分钟休息）回忆5秒长的音乐片段。
构建了包含1,000首音乐作品的YTMM数据集，每首作品的记忆度分数基于正确回忆该作品的参与者比例确定。
提出了多种基线模型：带RBF核的SVR、MLP以及SSAST（自监督音频频谱图变换器），输入为手工特征和梅尔频谱图。
通过SHAP集成可解释人工智能（XAI），解释模型预测结果，并识别出如唤醒度、BPM和音色特征等关键影响因素。
通过变调（±5个半音）进行数据增强，以提高泛化能力，尤其对SSAST等序列模型有益。
对特征选择和数据增强进行了消融研究，以评估模型的鲁棒性及对输入变化的敏感性。

实验结果

研究问题

RQ1能否通过数据驱动的机器学习方法可靠地测量和预测音乐记忆度？
RQ2哪些音频和音乐特征——如节拍速度、情感正向性、唤醒度和音色——最能预测记忆度？
RQ3不同模型架构（如SVR、MLP、SSAST）在数据有限的情况下预测音乐记忆度的效率如何？
RQ4基于SHAP的可解释性在多大程度上揭示了令人难忘的音乐的内在特征？
RQ5数据增强，特别是变调，对不同架构模型性能的影响如何？

主要发现

YTMM数据集提供了基于用户回忆的一致且客观的记忆度分数，为音乐记忆度回归建立了可靠的基准。
可解释手工特征（EHC）基线模型与记忆度的相关性最高（0.58），优于仅使用频谱图或原始特征的模型。
SSAST（自监督模型，在数据集上微调）由于其对频谱图模式的预训练理解能力，优于其他深度学习基线模型。
消融研究显示，选择前25个手工特征可使相关性最大化，表明特征选择对性能至关重要。
变调增强显著提升了SSAST等序列模型的性能，凸显了数据增强对对音高变化敏感的模型的重要性。
SHAP分析表明，更高的唤醒度、更快的节拍速度（BPM）以及显著的非人声、非鼓组、非低音音色成分（如主旋律）是记忆度的关键预测因子。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。