[论文解读] Early MFCC And HPCP Fusion for Robust Cover Song Identification
本文提出一种早期融合方法,结合梅尔频率倒谱系数(MFCCs)、谐音音高类轮廓(HPCP)和MFCC自相似矩阵(SSM),通过相似性网络融合(SNF)实现鲁棒的原曲识别。通过在对齐前对节拍同步、归一化的特征块进行融合,该方法在Covers80数据集上达到0.87的平均倒数排名(MRR),在新的1000首歌曲基准数据集Covers1000上达到0.904的SOTA性能。
While most schemes for automatic cover song identification have focused on note-based features such as HPCP and chord profiles, a few recent papers surprisingly showed that local self-similarities of MFCC-based features also have classification power for this task. Since MFCC and HPCP capture complementary information, we design an unsupervised algorithm that combines normalized, beat-synchronous blocks of these features using cross-similarity fusion before attempting to locally align a pair of songs. As an added bonus, our scheme naturally incorporates structural information in each song to fill in alignment gaps where both feature sets fail. We show a striking jump in performance over MFCC and HPCP alone, achieving a state of the art mean reciprocal rank of 0.87 on the Covers80 dataset. We also introduce a new medium-sized hand designed benchmark dataset called "Covers 1000," which consists of 395 cliques of cover songs for a total of 1000 songs, and we show that our algorithm achieves an MRR of 0.9 on this dataset for the first correctly identified song in a clique. We provide the precomputed HPCP and MFCC features, as well as beat intervals, for all songs in the Covers 1000 dataset for use in further research.
研究动机与目标
- 解决音乐中基于音高的特征(如HPCP)在非和声或打击乐音乐中失效的问题,以应对原曲识别的挑战。
- 通过利用MFCC和HPCP在捕捉音色和和声内容方面的互补性,克服仅依赖MFCC或HPCP的局限性。
- 提出一种新颖的早期融合策略,在对齐前结合MFCC、HPCP和SSM,以提升鲁棒性并填补对齐间隙。
- 创建并发布一个新的多样化基准数据集Covers1000,包含1000首歌曲,分属395个连通分量,以支持未来原曲识别研究。
- 证明早期融合结合SNF显著优于单一特征或后期融合技术,在标准和具有挑战性的数据集上均表现更优。
提出的方法
- 使用具有多种节拍偏置(60、120、180bpm)的动态规划节拍追踪器,从每首歌曲中提取节拍同步、归一化的MFCC、HPCP和SSM特征块。
- 对HPCP特征应用延迟嵌入(每拍两个窗口),以增强每个特征块内的时序上下文。
- 使用相似性网络融合(SNF)结合歌曲间的交叉相似性与每首歌曲内部的自相似性,构建统一的相似性网络。
- 在融合后的相似性网络上使用Smith-Waterman算法进行局部对齐,以识别原曲关系。
- 通过聚合歌曲网络中的相似性分数,实施后期融合,进一步提升性能。
- 预先计算并发布Covers1000数据集中全部1000首歌曲的MFCC、HPCP和节拍间隔特征,供公众重用。
实验结果
研究问题
- RQ1MFCC、HPCP和SSM的早期融合是否能将原曲识别性能提升至超过单一特征或后期融合的水平?
- RQ2所提出的早期SNF融合方法在具有挑战性的原曲集合(如无和声内容的音乐,例如鼓独奏)上的表现如何?
- RQ3从自相似矩阵中引入结构信息在低信噪比区域在多大程度上增强了对齐的鲁棒性?
- RQ4一个新创建的、多样化的、人工精心筛选的基准数据集(Covers1000)是否能支持对原曲识别系统更严格且更具泛化能力的评估?
- RQ5在音乐风格和结构复杂度各异的数据集中,互补特征的融合是否能带来一致的性能增益?
主要发现
- 所提出的早期融合方法在Covers80数据集上实现了0.87的平均倒数排名(MRR),显著优于单独使用MFCC(MRR 0.618)和HPCP(MRR 0.757)。
- 在新的Covers1000数据集上,结合后期融合后,该方法实现了0.904的MRR,显著优于仅使用早期融合(MRR 0.829)和所有单一特征。
- 对于弗兰克·扎帕的《The Black Page》(纯打击乐鼓独奏)的8首原曲连通分量,早期SNF融合方法实现了0.98的平均精度(MAP),远超HPCP(MAP 0.014),并优于原始MFCC(MAP 0.97)。
- 仅融合MFCC和SSM即在Covers1000上实现了0.829的MRR,证明SSM提供了超越标准MFCC的互补信息。
- 在非和声音乐等具有挑战性的场景中,早期融合的性能增益最为显著,此时HPCP失效,但MFCC和SSM仍能捕捉结构和音色模式。
- 公开发布Covers1000中全部1000首歌曲的预计算MFCC、HPCP和节拍间隔特征,支持可复现性,并推动未来音乐相似性与结构分析研究。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。