Skip to main content
QUICK REVIEW

[论文解读] MIDI-Sheet Music Alignment Using Bootleg Score Synthesis

Thitaree Tanprasert, Teerapat Jenrungrot|arXiv (Cornell University)|Nov 4, 2019
Music and Audio Processing参考文献 32被引用 1
一句话总结

本文提出了一种新颖的MIDI-乐谱对齐方法,通过将MIDI和乐谱均转换为像素空间中的简化‘山寨乐谱’表示,绕过了光学乐谱识别。利用山寨乐谱合成与深度分水岭检测器,通过动态时间规整对齐两种模态,在来自IMSLP的68首乐曲数据集上实现了1秒误差容限内的97.3%准确率。

ABSTRACT

MIDI-sheet music alignment is the task of finding correspondences between a MIDI representation of a piece and its corresponding sheet music images. Rather than using optical music recognition to bridge the gap between sheet music and MIDI, we explore an alternative approach: projecting the MIDI data into pixel space and performing alignment in the image domain. Our method converts the MIDI data into a crude representation of the score that only contains rectangular floating notehead blobs, a process we call bootleg score synthesis. Furthermore, we project sheet music images into the same bootleg space by applying a deep watershed notehead detector and filling in the bounding boxes around each detected notehead. Finally, we align the bootleg representations using a simple variant of dynamic time warping. On a dataset of 68 real scanned piano scores from IMSLP and corresponding MIDI performances, our method achieves a 97.3% accuracy at an error tolerance of one second, outperforming several baseline systems that employ optical music recognition.

研究动机与目标

  • 为解决在不依赖光学乐谱识别的情况下将MIDI文件与乐谱图像对齐的挑战。
  • 通过将MIDI和乐谱均投影到共享的基于像素的表示空间中,探索一种替代的对齐方法。
  • 在演奏变化和乐谱图像失真存在的情况下,提升对齐的准确性。
  • 开发一种轻量级、端到端的对齐流水线,直接在图像空间中运行。

提出的方法

  • 使用矩形浮动音符头斑块将MIDI数据转换为基于像素的‘山寨乐谱’表示。
  • 在乐谱图像上应用深度分水岭音符头检测器,以定位音符头并生成边界框。
  • 通过填充其边界框,将检测到的音符头投影到相同的山寨乐谱空间中。
  • 在图像域中使用动态时间规整的变体对齐两种山寨乐谱表示。
  • 使用一种简单且可微的对齐代价函数,优化山寨乐谱序列之间的对应关系。
  • 在来自IMSLP的68首扫描钢琴乐谱及其对应MIDI演奏的配对数据集上训练并评估系统。

实验结果

研究问题

  • RQ1是否可以通过在共享像素空间中操作,无需光学乐谱识别,有效实现MIDI-乐谱对齐?
  • RQ2山寨乐谱合成在保留MIDI与乐谱匹配相关的特征方面表现如何?
  • RQ3与基于OMR的基线方法相比,使用动态时间规整进行图像域对齐的性能如何?
  • RQ4该方法对演奏速度变化和乐谱图像质量的鲁棒性如何?

主要发现

  • 所提出的方法在来自IMSLP的68首乐曲数据集上,实现了1秒误差容限内的97.3%对齐准确率。
  • 该方法在对齐任务中优于多个依赖光学乐谱识别的基线系统。
  • 山寨乐谱合成即使在视觉细节极少的情况下,也能成功捕捉乐谱的关键结构特征以支持对齐。
  • 尽管表示形式简化,图像域中的动态时间规整对齐方法仍表现出高效且稳健的性能。
  • 该方法在真实世界扫描乐谱和演奏MIDI文件上展现出强大的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。