QUICK REVIEW

[논문 리뷰] Lakh Pianoroll Dataset

Hao‐Wen Dong, Wen-Yi Hsiao|arXiv (Cornell University)|2017. 09. 19.

Music Technology and Sound Studies인용 수 151

한 줄 요약

MuseGAN은 심볼릭 음악 생성을 위한 다중 트랙 시퀀셜 GAN을 제안하고, 세 가지 생성 모델(잼잉, 컴포저, 하이브리드) 도입, 시간 구조 처리, 그리고 Lakh MIDI 데이터셋에서 파생된 Lakh Pianoroll Dataset(LPD)을 소개하며, 트랙-조건부 생성 및 전용 평가 지표를 제공한다.

ABSTRACT

Generating music has a few notable differences from generating images and videos. First, music is an art of time, necessitating a temporal model. Second, music is usually composed of multiple instruments/tracks with their own temporal dynamics, but collectively they unfold over time interdependently. Lastly, musical notes are often grouped into chords, arpeggios or melodies in polyphonic music, and thereby introducing a chronological ordering of notes is not naturally suitable. In this paper, we propose three models for symbolic multi-track music generation under the framework of generative adversarial networks (GANs). The three models, which differ in the underlying assumptions and accordingly the network architectures, are referred to as the jamming model, the composer model and the hybrid model. We trained the proposed models on a dataset of over one hundred thousand bars of rock music and applied them to generate piano-rolls of five tracks: bass, drums, guitar, piano and strings. A few intra-track and inter-track objective metrics are also proposed to evaluate the generative results, in addition to a subjective user study. We show that our models can generate coherent music of four bars right from scratch (i.e. without human inputs). We also extend our models to human-AI cooperative music generation: given a specific track composed by human, we can generate four additional tracks to accompany it. All code, the dataset and the rendered audio samples are available at https://salu133445.github.io/musegan/ .

연구 동기 및 목표

시간적 및 트랙 간 일관성을 가진 다중 트랙 폴리포닉 심볼릭 음악 생성을 촉진한다.
피아노 롤 표상을 사용하여 다섯 개의 트랙(베이스, 드럼, 기타, 피아노, 현)을 생성함으로써 단일 트랙/단음성 가정과 같은 단순화된 가정을 피한다.
잼잉, 작곡, 그리고 트랙 간 동적 상호작용을 포착하기 위한 세 가지 GAN 기반 생성 모델을 개발한다.
인간-AI 협업 음악 창작을 위한 트랙-조건부 생성을 프레임워크에 확장한다.
전처리를 포함한 새로운 데이터셋(LPD)을 제공하고, intra-track 및 inter-track 목적 지표를 평가에 제시한다.

제안 방법

다중 트랙 음악을 바 기반 피아노 롤 텐서로 표현하여 CNN을 활용한다.
핵심 생성 모델로 그래디언트 패널티가 있는 Wasserstein GAN(WGAN-GP)을 채택한다.
세 가지 생성 스킴을 정의한다: 잼잉(jamming, 독립적인 개인 생성자), 컴포저(composer, 단일 공유 생성자), 하이브리드(hybrid, 트랙 간 입력이 있는 개인 생성자).
두 가지 접근 방식으로 시간적 구조를 포함한다: 처음부터 생성하는 방식은 시간 생성기가 바 생성기로 피드하고, 트랙-조건부 생성은 주어진 트랙을 잠재 공간으로 매핑하는 인코더를 사용한다.
트랙 간 및 트랙 내 임의 벡터를 각 트랙의 바 생성기와 결합하여 바 단위의 다중 트랙 피아노 롤을 생성하는 방식으로 MuseGAN을 구성한다.
사용자가 제공한 트랙에서 트랙 간 특징을 추출하기 위한 인코더를 사용한 트랙-조건부 생성으로 확장한다.
Lakh MIDI 파일을 다섯 트랙 피아노 롤(베이스, 드럼, 기타, 피아노, 현)로 매핑하고 학습을 위해 4-바 구절로 분할하는 방식으로 데이터를 전처리한다.

실험 결과

연구 질문

RQ1GAN 기반 모델이 문제를 더 단순한 하위 문제로 축약하지 않으면서 어떻게 일관된 다중 트랙 폴리포닉 심볼릭 음악을 생성할 수 있는가?
RQ2다중 트랙 음악 생성에서 트랙 간 조정과 트랙 내 다이내믹스를 모델링하기 위한 효과적인 아키텍처는 무엇인가?
RQ3생성된 음악에서 네 바 구절과 같은 음악적으로 의미 있는 구절을 만들어내기 위해 시간적 구조를 효과적으로 학습할 수 있는가?
RQ4트랙-조건부 생성을 통해 인간-AI 협력 음악 작곡이나 반주가 유용해질 수 있는가?

주요 결과

세 가지 GAN 기반 생성 모델(잼잉, 컴포저, 하이브리드)은 서로 다른 트랙 간 하모니 관계를 생성하며, 보통 컴포저와 하이브리드가 트랙 간의 연속성(교차 트랙 일관성)을 더 강하게 보여준다.
잼잉 모델은 트랙 내 지표에서 우수한 경향이 있으며(단편화가 적음), 반면 컴포저/하이브리드 모델은 트랙 간 조화(음조 간 거리 TD 감소)를 더 잘 포착한다.
시간적 모델링은 바 단위 생성을 가능하게 하여 더 긴 구절을 형성하고, 트랙-조건부 생성을 통해 인간이 작곡한 트랙을 반주하는 것을 지원한다.
객관적 지표(E B, UPC, QN, DP, TD)는 데이터 희소성, 음높이 사용, 음들 품질, 드럼 패턴 및 트랙 간 조화에 대한 통찰을 제공하여 모델 평가를 안내한다.
Rock, 4/4 시간 및 구절 구조로 필터링된 Lakh MIDI Dataset에서 파생된 다섯 트랙의 50,266개의 4바 구절 데이터셋(LPD)이 제공된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.