[論文レビュー] MIDI-Sheet Music Alignment Using Bootleg Score Synthesis
本稿では、光学楽譜認識を回避するため、MIDIおよび楽譜をピクセル空間における簡素化された「ブートランドスコア」表現に変換する、MIDI-楽譜のアライメント手法を提案する。ブートランドスコア合成とディープウォーターシェド検出器を用い、動的時間ワープ(DTW)により2つのモダリティをアライメントし、IMSPLから得た68点のデータセットで1秒の誤差許容範囲内に97.3%の正確性を達成した。
MIDI-sheet music alignment is the task of finding correspondences between a MIDI representation of a piece and its corresponding sheet music images. Rather than using optical music recognition to bridge the gap between sheet music and MIDI, we explore an alternative approach: projecting the MIDI data into pixel space and performing alignment in the image domain. Our method converts the MIDI data into a crude representation of the score that only contains rectangular floating notehead blobs, a process we call bootleg score synthesis. Furthermore, we project sheet music images into the same bootleg space by applying a deep watershed notehead detector and filling in the bounding boxes around each detected notehead. Finally, we align the bootleg representations using a simple variant of dynamic time warping. On a dataset of 68 real scanned piano scores from IMSLP and corresponding MIDI performances, our method achieves a 97.3% accuracy at an error tolerance of one second, outperforming several baseline systems that employ optical music recognition.
研究の動機と目的
- 光学楽譜認識に依存せずにMIDIファイルと楽譜画像をアライメントする課題に対処すること。
- 両方のMIDIと楽譜を共有のピクセルベース表現に投影することで、代替のアライメントアプローチを検討すること。
- 演奏のばらつきやスコア画像の歪みが生じる状況下でもアライメントの正確性を向上させること。
- 画像空間で直接動作する、軽量でエンドツーエンドのアライメントパイプラインを構築すること。
提案手法
- 長方形の浮遊音符ブロブを用いて、MIDIデータをピクセルベースの「ブートランドスコア」表現に変換する。
- 楽譜画像に対してディープウォーターシェドノートヘッド検出器を適用し、ノートヘッドを局所化してバウンディングボックスを生成する。
- 検出されたノートヘッドを、そのバウンディングボックスを埋める形で同じブートランドスコア空間に投影する。
- 画像ドメインで、動的時間ワープ(DTW)の変種を用いて2つのブートランドスコア表現をアライメントする。
- ブートランドスコア系列間の対応関係を最適化するため、単純で微分可能なアライメントコスト関数を用いる。
- IMSPLから入手した68点のスキャン済みピアノスコアとそれに対応するMIDI演奏のペアからなるデータセットを用いて、システムを訓練および評価する。
実験結果
リサーチクエスチョン
- RQ1共有のピクセル空間で作業することで、光学楽譜認識を用いずにMIDI-楽譜アライメントを効果的に行うことができるか?
- RQ2ブートランドスコア合成は、MIDIと楽譜のマッチングに必要な特徴をどれほど正確に保持するか?
- RQ3画像ドメインでのアライメントに動的時間ワープを用いる場合、OMRベースのベースラインと比較してどの程度の性能を示すか?
- RQ4本手法は、演奏のテンポのばらつきやスコア画像の品質にどの程度頑健か?
主な発見
- 本手法は、IMSPLから得た68点のデータセットにおいて、1秒の誤差許容範囲内で97.3%のアライメント正確性を達成した。
- 本手法は、アライメントタスクに光学楽譜認識に依存する複数のベースラインシステムを上回った。
- ブートランドスコア合成は、最小限の視覚的詳細でさえも、アライメントに必要な楽譜の構造的特徴を効果的に捉えられていた。
- 簡素化された表現にもかかわらず、画像ドメインでの動的時間ワープによるアライメントは、実効的で頑健であることが示された。
- 本手法は、実世界のスキャン済み楽譜およびMIDI演奏ファイルに対しても、優れた一般化性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。