[논문 리뷰] Music transcription modelling and composition using deep learning
이 논문은 23,000개의 celic 민속 음악 전사본을 기반으로 훈련된 깊은 Long Short-Term Memory (LSTM) 네트워크를 사용하여 ABC 표기법으로 음악 전사본을 모델링하고 생성하는 딥러닝 프레임워크를 제안한다. 시스템은 음악적으로 타당하고 스타일적으로 일관된 전사본을 생성하여 창작에 활용할 수 있으며, 엄격한 스타일적 경계를 초월한 아이디어 생성과 변형에 유용함을 보여준다.
We apply deep learning methods, specifically long short-term memory (LSTM) networks, to music transcription modelling and composition. We build and train LSTM networks using approximately 23,000 music transcriptions expressed with a high-level vocabulary (ABC notation), and use them to generate new transcriptions. Our practical aim is to create music transcription models useful in particular contexts of music composition. We present results from three perspectives: 1) at the population level, comparing descriptive statistics of the set of training transcriptions and generated transcriptions; 2) at the individual level, examining how a generated transcription reflects the conventions of a music practice in the training transcriptions (Celtic folk); 3) at the application level, using the system for idea generation in music composition. We make our datasets, software and sound examples open and available: \url{https://github.com/IraKorshunova/folk-rnn}.
연구 동기 및 목표
- celtic 민속 음악의 스타일적 관례를 반영하는 음악적으로 의미 있는 전사본을 생성할 수 있는 딥러닝 모델을 개발하는 것.
- 이러한 모델이 음악 창작 도구로서의 유용성, 특히 아이디어 생성과 스타일 변형에 있어의 응용 가능성을 탐색하는 것.
- 재현 가능한 연구와 커뮤니티 참여를 지원하기 위해 데이터셋, 소프트웨어, 생성된 예제를 개방적으로 공개하는 것.
- 모델의 성능을 통계적 평가 외에도 전문가의 음악적 판단과 실제 창작 환경에서의 실용적 평가를 통해 평가하는 것.
제안 방법
- 23,000개의 ABC 표기법 전사본을 포함한 코퍼스를 기반으로, 각각 512개의 LSTM 블록을 가진 3개의 히든 레이어를 갖는 깊은 LSTM 네트워크를 훈련하는 것.
- 두 가지 훈련 방식을 구현: 문자 수준 모델링(이전 50개 문자를 기반으로 다음 문자 예측)과 토큰 수준 모델링(이전 토큰들을 기반으로 다음 음악 토큰 예측).
- 온도 샘플링을 사용한 시퀀스 생성을 통해 학습된 음악 시퀀스에 대한 확률 분포에서 새로운 전사본을 생성하는 것.
- 통계적 비교, 음악적 관례(예: 반복, 윤곽, 구조)의 스타일 분석, 실질적 창작 응용을 통한 생성 결과 평가.
- 비표준적인 음악 조각으로 시드를 주어 모델의 적응성과 창의적 반응성을 평가하기 위해 모델을 활용해 새로운 곡을 생성하는 것.
- 모든 데이터셋, 훈련된 모델, 샘플 출력물을 GitHub를 통해 공개하여 개방적이고 재현 가능한 연구 및 커뮤니티 피드백을 가능하게 하는 것.
실험 결과
연구 질문
- RQ1생성된 전사본의 통계적 특성은 훈련 데이터와 어느 정도 일치하는가?
- RQ2생성된 전사본은 melodic contour, 반복, 구조적 진행과 같은 celic 민속 음악의 스타일적 관례를 얼마나 잘 반영하는가?
- RQ3모델은 음악 창작 도구로서 실용적으로 기능할 수 있는가, 특히 음악적으로 타당하고 새로운 맥락에 적응 가능한 새로운 아이디어를 생성하는 데서?
- RQ4훈련 분포에서 벗어난 음악 조각으로 프롬프트를 제공했을 때 모델의 성능은 어떠한가?
- RQ5인간의 큐레이션과 작곡가의 간섭은 모델 출력물을 연주 가능한, 스타일적으로 통일된 음악으로 전환하는 데 어떤 역할을 하는가?
주요 결과
- 생성된 전사본은 노트 지속시간, 간격 분포, 리듬적 구조 측면에서 훈련 데이터와 강한 통계적 유사성을 보였다.
- 예를 들어 'The Devil's in the Kitchen'와 유사한 한 전사본은 전문가의 听적 평가에서 음악적으로 타당하고 거의 '세션 준비 완료' 수준으로 평가되었다.
- 모델은 반복, 변형, 멜로디 윤곽과 같은 스타일적 관례를 다양한 출력물에 효과적으로 적용하여 음악 문법을 효과적으로 학습했다는 것을 보여주었다.
- 비표준적인 음악 조각으로 시드를 주었을 때 모델은 새로운, 통일된 변형을 생성하여, 엄격한 스타일 복제를 초월한 적응성을 입증했다.
- 이 시스템은 작곡가가 스타일 일관성을 유지하면서도 새로운 음악적 방향으로 모델을 이끌 수 있도록 의미 있는 창의적 탐색을 가능하게 하였다.
- 인간의 큐레이션으로 인해 모델의 성능이 향상되었으며, 이는 시스템이 음악적으로 의미 있는 콘텐츠를 생성할 수는 있지만, 최종 예술적 결정은 여전히 작곡가의 영역임을 확인시켜 주었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.