[论文解读] Improved handling of repeats and jumps in audio-sheet image synchronization
本文提出了一种名为分层DTW(Hierarchical DTW)的新音频-乐谱同步算法,通过在特征层和分段层同时操作,显著提升了对来自IMSLP的原始、未经处理的乐谱PDF中音频对齐的性能。该方法在处理未知跳转位置和重复段方面表现出更强的鲁棒性,显著改善了在存在不连续性的实际扫描乐谱中的对齐表现,优于现有的Jump DTW方法。
This paper studies the problem of automatically generating Youtube piano score following videos given an audio recording and raw sheet music images. Whereas previous works focus on synthetic sheet music where the data has been cleaned and preprocessed, we instead focus on developing a system that can cope with the messiness of raw, unprocessed sheet music PDFs from IMSLP. We investigate how well existing systems cope with real scanned sheet music, filler pages and unrelated pieces or movements, and discontinuities due to jumps and repeats. We find that a significant bottleneck in system performance is handling jumps and repeats correctly. In particular, we find that a previously proposed Jump DTW algorithm does not perform robustly when jump locations are unknown a priori. We propose a novel alignment algorithm called Hierarchical DTW that can handle jumps and repeats even when jump locations are not known. It first performs alignment at the feature level on each sheet music line, and then performs a second alignment at the segment level. By operating at the segment level, it is able to encode domain knowledge about how likely a particular jump is. Through carefully controlled experiments on unprocessed sheet music PDFs from IMSLP, we show that Hierarachical DTW significantly outperforms Jump DTW in handling various types of jumps.
研究动机与目标
- 解决将音频与来自公共存储库(如IMSLP)的原始、未经处理的乐谱PDF进行同步的挑战。
- 研究现有对齐系统在面对实际数据中的干扰因素(如填充页、无关乐章、跳转/重复)时的局限性。
- 开发一种能够处理扫描乐谱中未知跳转位置和重复段的鲁棒对齐方法。
- 在存在由跳转和重复引起的不连续性条件下,提升对齐性能。
提出的方法
- 提出分层DTW,一种两阶段对齐算法:首先在单个谱表线上对特征进行对齐,然后在更高层级对分段进行对齐。
- 利用分段级对齐来编码关于特定跳转可能性的领域知识,从而增强对不确定跳转位置的鲁棒性。
- 直接在未经处理的乐谱PDF上运行,无需事先清洗或预处理,从而保留原始数据中的噪声和不一致性。
- 在特征层和分段层均采用动态时间规整(DTW),并通过分层融合提升对齐精度。
- 引入关于音乐结构的结构先验知识,以指导分段级对齐,尤其针对重复和跳转模式。
- 先对每条谱表线独立进行对齐,再在分段层级融合结果,以增强对局部失真的鲁棒性。
实验结果
研究问题
- RQ1当将现有音频-乐谱对齐系统应用于IMSLP的原始、未经处理的乐谱PDF时,其表现如何?
- RQ2在实际场景中,跳转和重复在多大程度上会降低当前对齐算法的性能?
- RQ3当跳转位置事先未知时,分层对齐方法是否能优于现有方法(如Jump DTW)?
- RQ4分段级对齐在编码关于音乐结构的领域知识以提升同步性能方面有多有效?
主要发现
- 现有系统(包括Jump DTW)在原始IMSLP乐谱上表现不佳,原因在于存在未处理的干扰因素(如填充页、无关乐章)。
- 音频-乐谱同步的主要瓶颈在于对跳转和重复的错误处理,尤其是在跳转位置未知的情况下。
- 分层DTW在处理各种类型的跳转时,显著优于Jump DTW,即使跳转位置事先未知。
- 分层DTW中的分段级对齐能够更好地建模音乐结构,从而在存在不连续性和噪声的数据上实现更鲁棒的同步。
- 在未经处理的乐谱PDF上进行的受控实验表明,分层DTW在对齐精度上优于先前方法。
- 该方法能有效减少由重复段和结构不连续性在实际扫描乐谱中引起的对齐误差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。