QUICK REVIEW

[논문 리뷰] Optical Music Recognition with Convolutional Sequence-to-Sequence Models.

Eelco van der Wel, Karen Ullrich|arXiv (Cornell University)|2017. 10. 23.

Music and Audio Processing참고 문헌 7인용 수 7

한 줄 요약

이 논문은 실세계의 이미지 증강 기법을 적용한 새로 공개된 대규모 인간 레이블링 데이터셋을 사용하여 전체 악보 이미지에서 직접 훈련하는 엔드 투 엔드 옵티컬 뮤직 리코그니션(OMR)을 위한 컨볼루션 시퀀스-투-시퀀스 모델을 소개한다. 이 모델은 80%의 노트 수준 정확도, 81%의 페치 정확도, 94%의 지속 시간 정확도를 달성하여 상용 OMR 도구를 능가한다.

ABSTRACT

Optical Music Recognition (OMR) is an important technology within Music Information Retrieval. Deep learning models show promising results on OMR tasks, but symbol-level annotated data sets of sufficient size to train such models are not available and difficult to develop. We present a deep learning architecture called a Convolutional Sequence-to-Sequence model to both move towards an end-to-end trainable OMR pipeline, and apply a learning process that trains on full sentences of sheet music instead of individually labeled symbols. The model is trained and evaluated on a human generated data set, with various image augmentations based on real-world scenarios. This data set is the first publicly available set in OMR research with sufficient size to train and evaluate deep learning models. With the introduced augmentations a pitch recognition accuracy of 81% and a duration accuracy of 94% is achieved, resulting in a note level accuracy of 80%. Finally, the model is compared to commercially available methods, showing a large improvements over these applications.

연구 동기 및 목표

기호 수준의 레이블링이 필요 없이 전체 악보 이미지를 처리할 수 있는 엔드 투 엔드 훈련 가능한 OMR 시스템을 개발하는 것.
딥러닝을 위한 충분히 큰 데이터셋을 제공하기 위해, 공개 가능하고 충분히 크며 인간 레이블링이 된 OMR 데이터셋을 구축하고 공개함으로써 기존의 대규모 고품질 기호 레이블링 데이터셋의 부족 문제를 해결하는 것.
고립된 기호가 아닌 전체 음악 문장에서의 훈련을 통해 맥락 이해 능력을 활용함으로써 OMR 성능을 향상시키는 것.
실제 스캔 및 인쇄 변형을 시뮬레이션하는 데이터 증강 기법을 사용하여 실제 이미지 조건 하에서 모델 성능을 평가하는 것.
기존 상용 OMR 솔루션과 비교하여 뛰어난 성능을 보여주는 것.

제안 방법

컨볼루션 신경망을 사용한 특징 추출과 시퀀스-투-시퀀스 아키텍처를 결합한 컨볼루션 시퀀스-투-시퀀스 모델을 제안한다.
모델은 전체 스태프 이미지에서 직접 원시 이미지 입력으로부터 음악 기호의 시퀀스를 예측할 수 있도록 엔드 투 엔드로 훈련된다.
다양한 악보 예제를 포함한 새로운 대규모 인간 레이블링 OMR 데이터셋을 구축하고 공개한다.
훈련 중에 다양한 조명, 노이즈, 스태프 선 왜곡 등을 시뮬레이션하기 위해 이미지 증강 기법을 적용한다.
어텐션 메커니즘을 사용하여 시각적 특징과 출력 시퀀스의 해당 음악 기호를 정렬한다.
개별 기호 레이블링이 필요 없이 시퀀스 수준의 감독을 사용하여 훈련한다.

실험 결과

연구 질문

RQ1전체 악보 이미지에서 훈련된 시퀀스-투-시퀀스 모델이 기호 수준의 레이블링이 없이도 높은 OMR 정확도를 달성할 수 있는가?
RQ2제안된 모델의 성능은 페치, 지속 시간, 노트 수준 정확도 측면에서 기존 상용 OMR 시스템과 비교해 어떻게 되는가?
RQ3실세계 이미지 변형을 시뮬레이션하는 데이터 증강 기법이 모델의 일반화 능력과 내성 강도 향상에 어느 정도 기여하는가?
RQ4공개 가능하고 대규모이며 인간 레이블링이 된 OMR 데이터셋은 딥러닝 모델의 효과적인 훈련을 가능하게 하는가?
RQ5고립된 기호 예측이 아닌 전체 음악 문장에서의 훈련이 맥락 이해 능력을 향상시키고 인식 성능을 향상시키는가?

주요 결과

제안된 모델은 테스트 세트에서 80%의 노트 수준 정확도를 달성하여 전체 점수 인식에서 뛰어난 성능을 보였다.
페치 인식 정확도는 81%에 도달하여 다양한 표기 스타일에서 음정을 신뢰성 있게 식별할 수 있음을 나타낸다.
지속 시간 인식 정확도는 94%로, OMR에서 핵심 과제인 지속 시간 탐지에 높은 정밀도를 보였다.
기존 상용 OMR 도구보다 상당히 뛰어난 성능을 보여, 분야 내에서의 중대한 진전을 나타낸다.
훈련 중 실세계 이미지 증강 기법을 사용함으로써 모델의 내성 강도와 미리 보지 않은 노이즈가 있는 입력으로의 일반화 능력이 향상되었다.
공개 가능하고 대규모이며 인간 레이블링이 된 OMR 데이터셋의 공개는 향후 연구와 기준 평가를 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.