[论文解读] Optical Music Recognition with Convolutional Sequence-to-Sequence Models.
本文提出一种用于端到端光学音乐识别(OMR)的卷积序列到序列模型,直接在全谱面图像上进行训练,使用新发布的、大规模的、人工标注的数据集,并引入真实世界图像增强技术。该模型在音符级别达到80%的准确率,音高准确率达到81%,时值准确率达到94%,优于现有的商业OMR工具。
Optical Music Recognition (OMR) is an important technology within Music Information Retrieval. Deep learning models show promising results on OMR tasks, but symbol-level annotated data sets of sufficient size to train such models are not available and difficult to develop. We present a deep learning architecture called a Convolutional Sequence-to-Sequence model to both move towards an end-to-end trainable OMR pipeline, and apply a learning process that trains on full sentences of sheet music instead of individually labeled symbols. The model is trained and evaluated on a human generated data set, with various image augmentations based on real-world scenarios. This data set is the first publicly available set in OMR research with sufficient size to train and evaluate deep learning models. With the introduced augmentations a pitch recognition accuracy of 81% and a duration accuracy of 94% is achieved, resulting in a note level accuracy of 80%. Finally, the model is compared to commercially available methods, showing a large improvements over these applications.
研究动机与目标
- 开发一种可端到端训练的OMR系统,直接处理全谱面图像,无需依赖符号级别的标注。
- 通过创建并发布首个公开可用、规模足够大的数据集,解决高质量、符号标注的OMR数据集稀缺的问题。
- 通过在完整乐句而非孤立符号上进行训练,利用上下文理解能力,提升OMR性能。
- 通过应用模拟真实世界扫描和打印差异的图像增强技术,在真实图像条件下评估模型性能。
- 展示该模型在性能上显著优于现有商业OMR解决方案。
提出的方法
- 提出一种卷积序列到序列模型,结合卷积神经网络进行特征提取,以及序列到序列架构用于音乐记号的转录。
- 该模型在全谱面图像上进行端到端训练,直接从原始图像输入学习预测音乐符号序列。
- 创建并发布了新的大规模人工标注OMR数据集,包含适合深度学习模型训练的多样化谱面样本。
- 在训练过程中应用图像增强技术,以模拟真实世界条件,如光照变化、噪声以及谱线扭曲。
- 模型使用注意力机制,将视觉特征与输出序列中的对应音乐符号对齐。
- 采用序列级监督进行训练,避免对实例级符号标注的需求。
实验结果
研究问题
- RQ1在无需符号级别标注的情况下,基于全谱面图像训练的序列到序列模型能否实现高OMR准确率?
- RQ2与现有商业OMR系统相比,该模型在音高、时值和音符级别准确率方面的表现如何?
- RQ3模拟真实世界图像差异的图像增强技术在多大程度上提升了模型的泛化能力和鲁棒性?
- RQ4大规模、公开可用、人工标注的OMR数据集是否能够有效支持深度学习模型的训练?
- RQ5在完整乐句上进行训练是否能带来更好的上下文理解能力,并相比孤立符号预测提升识别性能?
主要发现
- 所提出的模型在测试集上实现了80%的音符级别准确率,证明了其在全谱面识别任务中的强大性能。
- 音高识别准确率达到81%,表明在多种记谱风格下均能可靠识别音乐音高。
- 时值识别准确率为94%,显示出在检测音符时值方面具有高精度,这是OMR中的一个关键挑战。
- 该模型显著优于现有商业OMR工具,标志着该领域的重要进展。
- 在训练中使用真实世界图像增强技术,提升了模型对未见过的、含噪声输入的鲁棒性和泛化能力。
- 首次公开发布大规模、人工标注的OMR数据集,为该领域的未来研究和基准测试提供了支持。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。