QUICK REVIEW

[논문 리뷰] MIDI-Sheet Music Alignment Using Bootleg Score Synthesis

Thitaree Tanprasert, Teerapat Jenrungrot|arXiv (Cornell University)|2019. 11. 04.

Music and Audio Processing참고 문헌 32인용 수 1

한 줄 요약

이 논문은 광학 음악 인식을 거치지 않고 MIDI와 악보 이미지를 픽셀 공간에 있는 간소화된 '보틀렉 스코어' 표현으로 변환함으로써 새로운 MIDI-악보 정렬 방법을 제안한다. 보틀렉 스코어 합성과 딥 워드스팟 검출기를 사용하여 동적 시간 왜곡을 통해 두 모odalities를 정렬하며, IMSLP에서 확보한 68개의 악보 데이터셋에서 1초 이내 오차 허용 범위 내에서 97.3%의 정확도를 달성한다.

ABSTRACT

MIDI-sheet music alignment is the task of finding correspondences between a MIDI representation of a piece and its corresponding sheet music images. Rather than using optical music recognition to bridge the gap between sheet music and MIDI, we explore an alternative approach: projecting the MIDI data into pixel space and performing alignment in the image domain. Our method converts the MIDI data into a crude representation of the score that only contains rectangular floating notehead blobs, a process we call bootleg score synthesis. Furthermore, we project sheet music images into the same bootleg space by applying a deep watershed notehead detector and filling in the bounding boxes around each detected notehead. Finally, we align the bootleg representations using a simple variant of dynamic time warping. On a dataset of 68 real scanned piano scores from IMSLP and corresponding MIDI performances, our method achieves a 97.3% accuracy at an error tolerance of one second, outperforming several baseline systems that employ optical music recognition.

연구 동기 및 목표

광학 음악 인식에 의존하지 않고 MIDI 파일과 악보 이미지를 정렬하는 데 도전하는 것.
MIDI와 악보를 공통의 픽셀 기반 표현으로 투영함으로써 정렬 접근 방식의 대안을 탐색하는 것.
연주 변형과 악보 이미지 왜곡이 존재하는 환경에서도 정렬 정확도를 향상시키는 것.
직접 이미지 공간에서 작동하는 경량이며 종단 간(end-to-end) 정렬 파이프라인을 개발하는 것.

제안 방법

직사각형 부유 노트헤드 블롭을 사용하여 MIDI 데이터를 픽셀 기반 '보틀렉 스코어' 표현으로 변환한다.
악보 이미지에 대해 딥 워드스팟 노트헤드 검출기를 적용하여 노트헤드를 국지화하고 경계 상자(bounding boxes)를 생성한다.
검출된 노트헤드를 그들의 경계 상자를 채우는 방식으로 동일한 보틀렉 스코어 공간으로 투영한다.
이미지 도메인에서 동적 시간 왜곡의 변종을 사용하여 두 보틀렉 표현을 정렬한다.
보틀렉 스코어 시퀀스 간의 대응을 최적화하기 위해 단순하고 미분 가능한 정렬 비용 함수를 사용한다.
IMSPL에서 확보한 68개의 스캔된 피아노 악보와 해당하는 MIDI 연주가 짝지어진 데이터셋을 사용하여 시스템을 훈련하고 평가한다.

실험 결과

연구 질문

RQ1공통의 픽셀 공간에서 작동함으로써 광학 음악 인식 없이도 MIDI-악보 정렬을 효과적으로 수행할 수 있는가?
RQ2보틀렉 스코어 합성은 MIDI와 악보를 매칭하기 위해 정렬에 관련된 특징을 얼마나 잘 유지하는가?
RQ3이미지 도메인에서 동적 시간 왜곡을 사용한 정렬 성능은 OMR 기반 기준 대비 어떠한가?
RQ4이 방법은 연주 템포 변동과 악보 이미지 품질에 대해 얼마나 강건한가?

주요 결과

제안된 방법은 IMSLP에서 확보한 68개의 악보 데이터셋에서 1초 이내 오차 허용 범위 내에서 97.3%의 정확도를 달성한다.
이 방법은 정렬 작업을 위해 광학 음악 인식에 의존하는 여러 기준 시스템을 능가한다.
보틀렉 스코어 합성은 최소한의 시각적 세부 정보로도 정렬에 필요한 핵심 구조적 특징을 성공적으로 포착한다.
간소화된 표현에도 불구하고 이미지 도메인에서의 동적 시간 왜곡을 통한 정렬은 효과적이고 강건함을 입증한다.
실제 스캔된 악보와 성악 MIDI 파일에 대해 강력한 일반화 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.