Skip to main content
QUICK REVIEW

[논문 리뷰] MIDI-Sheet Music Alignment Using Bootleg Score Synthesis

Thitaree Tanprasert, Teerapat Jenrungrot|arXiv (Cornell University)|2019. 11. 04.
Music and Audio Processing참고 문헌 32인용 수 1
한 줄 요약

이 논문은 광학 음악 인식을 거치지 않고 MIDI와 악보 이미지를 픽셀 공간에 있는 간소화된 '보틀렉 스코어' 표현으로 변환함으로써 새로운 MIDI-악보 정렬 방법을 제안한다. 보틀렉 스코어 합성과 딥 워드스팟 검출기를 사용하여 동적 시간 왜곡을 통해 두 모odalities를 정렬하며, IMSLP에서 확보한 68개의 악보 데이터셋에서 1초 이내 오차 허용 범위 내에서 97.3%의 정확도를 달성한다.

ABSTRACT

MIDI-sheet music alignment is the task of finding correspondences between a MIDI representation of a piece and its corresponding sheet music images. Rather than using optical music recognition to bridge the gap between sheet music and MIDI, we explore an alternative approach: projecting the MIDI data into pixel space and performing alignment in the image domain. Our method converts the MIDI data into a crude representation of the score that only contains rectangular floating notehead blobs, a process we call bootleg score synthesis. Furthermore, we project sheet music images into the same bootleg space by applying a deep watershed notehead detector and filling in the bounding boxes around each detected notehead. Finally, we align the bootleg representations using a simple variant of dynamic time warping. On a dataset of 68 real scanned piano scores from IMSLP and corresponding MIDI performances, our method achieves a 97.3% accuracy at an error tolerance of one second, outperforming several baseline systems that employ optical music recognition.

연구 동기 및 목표

  • 광학 음악 인식에 의존하지 않고 MIDI 파일과 악보 이미지를 정렬하는 데 도전하는 것.
  • MIDI와 악보를 공통의 픽셀 기반 표현으로 투영함으로써 정렬 접근 방식의 대안을 탐색하는 것.
  • 연주 변형과 악보 이미지 왜곡이 존재하는 환경에서도 정렬 정확도를 향상시키는 것.
  • 직접 이미지 공간에서 작동하는 경량이며 종단 간(end-to-end) 정렬 파이프라인을 개발하는 것.

제안 방법

  • 직사각형 부유 노트헤드 블롭을 사용하여 MIDI 데이터를 픽셀 기반 '보틀렉 스코어' 표현으로 변환한다.
  • 악보 이미지에 대해 딥 워드스팟 노트헤드 검출기를 적용하여 노트헤드를 국지화하고 경계 상자(bounding boxes)를 생성한다.
  • 검출된 노트헤드를 그들의 경계 상자를 채우는 방식으로 동일한 보틀렉 스코어 공간으로 투영한다.
  • 이미지 도메인에서 동적 시간 왜곡의 변종을 사용하여 두 보틀렉 표현을 정렬한다.
  • 보틀렉 스코어 시퀀스 간의 대응을 최적화하기 위해 단순하고 미분 가능한 정렬 비용 함수를 사용한다.
  • IMSPL에서 확보한 68개의 스캔된 피아노 악보와 해당하는 MIDI 연주가 짝지어진 데이터셋을 사용하여 시스템을 훈련하고 평가한다.

실험 결과

연구 질문

  • RQ1공통의 픽셀 공간에서 작동함으로써 광학 음악 인식 없이도 MIDI-악보 정렬을 효과적으로 수행할 수 있는가?
  • RQ2보틀렉 스코어 합성은 MIDI와 악보를 매칭하기 위해 정렬에 관련된 특징을 얼마나 잘 유지하는가?
  • RQ3이미지 도메인에서 동적 시간 왜곡을 사용한 정렬 성능은 OMR 기반 기준 대비 어떠한가?
  • RQ4이 방법은 연주 템포 변동과 악보 이미지 품질에 대해 얼마나 강건한가?

주요 결과

  • 제안된 방법은 IMSLP에서 확보한 68개의 악보 데이터셋에서 1초 이내 오차 허용 범위 내에서 97.3%의 정확도를 달성한다.
  • 이 방법은 정렬 작업을 위해 광학 음악 인식에 의존하는 여러 기준 시스템을 능가한다.
  • 보틀렉 스코어 합성은 최소한의 시각적 세부 정보로도 정렬에 필요한 핵심 구조적 특징을 성공적으로 포착한다.
  • 간소화된 표현에도 불구하고 이미지 도메인에서의 동적 시간 왜곡을 통한 정렬은 효과적이고 강건함을 입증한다.
  • 실제 스캔된 악보와 성악 MIDI 파일에 대해 강력한 일반화 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.