Skip to main content
QUICK REVIEW

[논문 리뷰] Optical Music Recognition with Convolutional Sequence-to-Sequence Models.

Eelco van der Wel, Karen Ullrich|arXiv (Cornell University)|2017. 10. 23.
Music and Audio Processing참고 문헌 7인용 수 7
한 줄 요약

이 논문은 실세계의 이미지 증강 기법을 적용한 새로 공개된 대규모 인간 레이블링 데이터셋을 사용하여 전체 악보 이미지에서 직접 훈련하는 엔드 투 엔드 옵티컬 뮤직 리코그니션(OMR)을 위한 컨볼루션 시퀀스-투-시퀀스 모델을 소개한다. 이 모델은 80%의 노트 수준 정확도, 81%의 페치 정확도, 94%의 지속 시간 정확도를 달성하여 상용 OMR 도구를 능가한다.

ABSTRACT

Optical Music Recognition (OMR) is an important technology within Music Information Retrieval. Deep learning models show promising results on OMR tasks, but symbol-level annotated data sets of sufficient size to train such models are not available and difficult to develop. We present a deep learning architecture called a Convolutional Sequence-to-Sequence model to both move towards an end-to-end trainable OMR pipeline, and apply a learning process that trains on full sentences of sheet music instead of individually labeled symbols. The model is trained and evaluated on a human generated data set, with various image augmentations based on real-world scenarios. This data set is the first publicly available set in OMR research with sufficient size to train and evaluate deep learning models. With the introduced augmentations a pitch recognition accuracy of 81% and a duration accuracy of 94% is achieved, resulting in a note level accuracy of 80%. Finally, the model is compared to commercially available methods, showing a large improvements over these applications.

연구 동기 및 목표

  • 기호 수준의 레이블링이 필요 없이 전체 악보 이미지를 처리할 수 있는 엔드 투 엔드 훈련 가능한 OMR 시스템을 개발하는 것.
  • 딥러닝을 위한 충분히 큰 데이터셋을 제공하기 위해, 공개 가능하고 충분히 크며 인간 레이블링이 된 OMR 데이터셋을 구축하고 공개함으로써 기존의 대규모 고품질 기호 레이블링 데이터셋의 부족 문제를 해결하는 것.
  • 고립된 기호가 아닌 전체 음악 문장에서의 훈련을 통해 맥락 이해 능력을 활용함으로써 OMR 성능을 향상시키는 것.
  • 실제 스캔 및 인쇄 변형을 시뮬레이션하는 데이터 증강 기법을 사용하여 실제 이미지 조건 하에서 모델 성능을 평가하는 것.
  • 기존 상용 OMR 솔루션과 비교하여 뛰어난 성능을 보여주는 것.

제안 방법

  • 컨볼루션 신경망을 사용한 특징 추출과 시퀀스-투-시퀀스 아키텍처를 결합한 컨볼루션 시퀀스-투-시퀀스 모델을 제안한다.
  • 모델은 전체 스태프 이미지에서 직접 원시 이미지 입력으로부터 음악 기호의 시퀀스를 예측할 수 있도록 엔드 투 엔드로 훈련된다.
  • 다양한 악보 예제를 포함한 새로운 대규모 인간 레이블링 OMR 데이터셋을 구축하고 공개한다.
  • 훈련 중에 다양한 조명, 노이즈, 스태프 선 왜곡 등을 시뮬레이션하기 위해 이미지 증강 기법을 적용한다.
  • 어텐션 메커니즘을 사용하여 시각적 특징과 출력 시퀀스의 해당 음악 기호를 정렬한다.
  • 개별 기호 레이블링이 필요 없이 시퀀스 수준의 감독을 사용하여 훈련한다.

실험 결과

연구 질문

  • RQ1전체 악보 이미지에서 훈련된 시퀀스-투-시퀀스 모델이 기호 수준의 레이블링이 없이도 높은 OMR 정확도를 달성할 수 있는가?
  • RQ2제안된 모델의 성능은 페치, 지속 시간, 노트 수준 정확도 측면에서 기존 상용 OMR 시스템과 비교해 어떻게 되는가?
  • RQ3실세계 이미지 변형을 시뮬레이션하는 데이터 증강 기법이 모델의 일반화 능력과 내성 강도 향상에 어느 정도 기여하는가?
  • RQ4공개 가능하고 대규모이며 인간 레이블링이 된 OMR 데이터셋은 딥러닝 모델의 효과적인 훈련을 가능하게 하는가?
  • RQ5고립된 기호 예측이 아닌 전체 음악 문장에서의 훈련이 맥락 이해 능력을 향상시키고 인식 성능을 향상시키는가?

주요 결과

  • 제안된 모델은 테스트 세트에서 80%의 노트 수준 정확도를 달성하여 전체 점수 인식에서 뛰어난 성능을 보였다.
  • 페치 인식 정확도는 81%에 도달하여 다양한 표기 스타일에서 음정을 신뢰성 있게 식별할 수 있음을 나타낸다.
  • 지속 시간 인식 정확도는 94%로, OMR에서 핵심 과제인 지속 시간 탐지에 높은 정밀도를 보였다.
  • 기존 상용 OMR 도구보다 상당히 뛰어난 성능을 보여, 분야 내에서의 중대한 진전을 나타낸다.
  • 훈련 중 실세계 이미지 증강 기법을 사용함으로써 모델의 내성 강도와 미리 보지 않은 노이즈가 있는 입력으로의 일반화 능력이 향상되었다.
  • 공개 가능하고 대규모이며 인간 레이블링이 된 OMR 데이터셋의 공개는 향후 연구와 기준 평가를 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.