QUICK REVIEW

[논문 리뷰] Deep Learning for Music

Allen Huang, Raymond Wu|arXiv (Cornell University)|2016. 06. 15.

Music and Audio Processing참고 문헌 3인용 수 30

한 줄 요약

이 논문은 다층 LSTM 네트워크를 사용한 딥러닝 접근법을 제안하여, MIDI 및 피아노 롤 두 가지 표현 방식으로 음악을 순차적 토큰으로 모델링함으로써 멜로디와 화성 구조를 동시에 갖춘 다성음 음악을 생성한다. 모델은 인간 평가를 통해 평균 10점 중 6.2점의 평가를 받으며, 최신 RNN-NADE 모델 수준의 음악 생성 품질을 달성한다.

ABSTRACT

Our goal is to be able to build a generative model from a deep neural network architecture to try to create music that has both harmony and melody and is passable as music composed by humans. Previous work in music generation has mainly been focused on creating a single melody. More recent work on polyphonic music modeling, centered around time series probability density estimation, has met some partial success. In particular, there has been a lot of work based off of Recurrent Neural Networks combined with Restricted Boltzmann Machines (RNN-RBM) and other similar recurrent energy based models. Our approach, however, is to perform end-to-end learning and generation with deep neural nets alone.

연구 동기 및 목표

멜로디와 화성적 구조를 동시에 갖춘 음악을 생성할 수 있는 딥 생성 모델을 개발하는 것.
워드2벡 스타일의 벡터 표현이 음악적 의미를 포착하는 데 있어 유의미하게 적용될 수 있는지 조사하는 것.
복잡한 에너지 기반 모델이나 하이브리드 아키텍처에 의존하지 않고, 엔드 투 엔드 딥 네ural 네트워크를 음악 생성에 적용하는 것의 효과를 평가하는 것.
다양한 데이터 표현 방식—MIDI와 피아노 롤—이 다성음 음악의 구조를 얼마나 잘 포착하는지 비교하는 것.
인간 평가를 통해 생성된 음악의 미학적 품질을 평가하여, 모델이 인간이 작곡한 음악이나 고도로 발전한 모델이 생성한 음악과 구분되지 않을 정도로 음악을 생성할 수 있는지 판단하는 것.

제안 방법

모델은 다층 LSTM 기반의 문자 수준 언어 모델을 사용하여 MIDI 및 피아노 롤 표현 방식의 음악 토큰 시퀀스를 생성한다.
MIDI 데이터는 노트 온 및 노트 오프 이벤트를 이산 토큰으로 변환하고, 트랙을 단일 시퀀스로 평탄화한다.
피아노 롤 표현은 각 타임스텝을 활성화된 노트를 나타내는 이진 벡터로 인코딩하여 다성음 코드의 공동 모델링을 가능하게 한다.
모델은 바흐의 160만 개 토큰과 더 넓은 고전 음악 데이터셋의 2500만 개 토큰을 포함한 대규모 고전 음악 코퍼스에서 엔드 투 엔드로 훈련된다.
학습된 임베딩의 분석을 위해 t-SNE 시각화가 사용되며, 모델이 음고 관계와 노트 그룹화를 얼마나 잘 포착하는지 평가한다.
26명의 자원자들이 생성된 음악을 음악적 타당성과 미학적 품질 기준으로 1~10점 사이로 평가하는 인간 평가가 수행된다.

실험 결과

연구 질문

RQ1엔드 투 엔드 훈련만으로도 깊이 있는 신경망이 멜로디와 화성 구조를 갖춘 음악을 생성할 수 있는가?
RQ2자연어의 워드2벡 임베딩와 유사한 의미 있는 음악적 음표의 벡터 표현이 존재하는가?
RQ3플랫티드 MIDI 토큰화에 비해 피아노 롤 표현 방식이 다성음 구조를 더 잘 유지하는가?
RQ4간단한 LSTM 기반 언어 모델이 RNN-NADE나 RTRBM와 같은 더 복잡한 모델과 유사한 미학적 품질의 음악을 생성할 수 있는가?
RQ5다른 데이터 표현 방식(MIDI 대비 피아노 롤)은 모델이 음고 관계와 리듬적 구조를 학습하는 데 어떤 영향을 미치는가?

주요 결과

t-SNE 시각화 결과, 음고 관련 토큰들이 의미 있는 군집을 이룰 것으로 나타나, 모델이 일관성 있는 멜로디와 화성적 구조를 생성하는 데 성공했다.
피아노 롤 표현 방식은 학습된 임베딩에서 낮은 음고와 높은 음고가 더 명확하게 분리됨을 보여, 음고 관계를 더 잘 포착한 것으로 나타났다.
인간 평가 결과, 26명의 평가자 중 23명이 모델 출력을 RNN-NADE 기준보다 더 낫거나 동등하다고 평가했으며, 평균 점수는 10점 중 6.2점이었다.
더 단순한 아키텍처를 사용했음에도 불구하고 RNN-NADE와 유사한 미학적 품질을 달성함으로써, 엔드 투 엔드 LSTM 훈련이 음악 생성에 효과적임을 시사했다.
노트 임베딩의 t-SNE 시각화에서 유사한 음고들이 함께 군집되고 리듬 패tern이 유지되는 것으로 나타나, 모델이 음고 그룹화와 리듬 패턴을 효과적으로 학습했다.
단순화된 데이터셋(1100만 토큰)조차도 음악적으로 타당한 샘플을 생성함으로써, 모델이 데이터가 감소한 상황에서도 잘 일반화됨을 시사했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.