QUICK REVIEW

[논문 리뷰] MuseGAN: Symbolic-domain Music Generation and Accompaniment with Multi-track Sequential Generative Adversarial Networks

Hao‐Wen Dong, Wen-Yi Hsiao|arXiv (Cornell University)|2017. 09. 19.

Music Technology and Sound Studies참고 문헌 17인용 수 31

한 줄 요약

이 논문은 퍼포먼스/록 음악의 127,731개의 MIDI 바를 기반으로 훈련된 세 가지 GAN 변종—재즈링, 컴포저, 하이브리드 모델—을 사용하는 다트랙 심볼릭 음악 생성 프레임워크인 MuseGAN을 제안한다. 이는 인간이 제공한 피아노 라인으로부터 보조 트랙을 생성함으로써 인간-AI 협업을 가능하게 하며, 초기 상태에서 일관된 네마디 음악 시퀀스를 생성한다.

ABSTRACT

Generating music has a few notable differences from generating images and videos. First, music is an art of time, necessitating a temporal model. Second, music is usually composed of multiple instruments/tracks, with close interaction with one another. Each track has its own temporal dynamics, but collectively they unfold over time interdependently. Lastly, for symbolic domain music generation, the targeted output is sequences of discrete musical events, not continuous values. In this paper, we propose and study three generative adversarial networks (GANs) for symbolic-domain multi-track music generation, using a data set of 127,731 MIDI bars of pop/rock music. The three models, which differ in the underlying model assumption and accordingly the network architecture, are referred to as the jamming model, composer model, and hybrid model, respectively. We propose a few intra-track and inter-track objective metrics to examine and compare their generation result, in addition to a subjective evaluation. We show that our models can learn from the noisy MIDI files and generate coherent music of four bars right from scratch (i.e. without human inputs). We also propose extensions of our models to facilitate human-AI cooperative music creation: given the piano track composed by human we can generate four additional tracks in return to accompany it.

연구 동기 및 목표

시간적 및 트랙 간 의존성을 고려한 일관된 다트랙 심볼릭 음악 생성에 도전하는 것.
출력이 연속적인 값이 아닌 이산적인 음악 이벤트인 심볼릭 음악 도메인에 특화된 딥 생성 모델을 개발하는 것.
인간이 작곡한 피아노 멜로디를 기반으로 보조 트랙을 생성함으로써 인간-AI 협업 음악 창작을 가능하게 하는 것.
음악 생성 품질을 정량적으로 평가하기 위해 내부 트랙 및 트랙 간 메트릭스를 설계하고 평가하는 것.

제안 방법

다트랙 음악 생성을 위한 아키텍처적 가정과 훈련 목적이 다른 세 가지 GAN 기반 아키텍처—재즈링, 컴포저, 하이브리드 모델—을 제안한다.
팝/록 음악의 127,731개의 MIDI 바로 구성된 데이터셋을 사용하며, 노이즈가 있는 MIDI 파일을 사용해 실제 환경의 오류에 일반화할 수 있도록 모델을 훈련시킨다.
생성자 네트워크가 다트랙 음악 시퀀스를 생성하고, 판별자 네트워크가 시간적 및 트랙 간 일관성을 평가하는 순차적 생성 적대적 프레임워크를 적용한다.
개별 트랙의 품질을 평가하기 위한 내부 트랙 메트릭스(예: 노트 시퀀스 일관성)와 조화 및 리듬 조율을 평가하기 위한 트랙 간 메트릭스를 도입한다.
조건부 생성을 확장하여, 인간이 작곡한 피아노 트랙을 기반으로 네 개의 추가 악기 트랙을 보조적으로 생성할 수 있도록 한다.
모델 성능을 세 아키텍처 간 비교하기 위해 정량적 메트릭스와 주관적 평가를 모두 적용한다.

실험 결과

연구 질문

RQ1GAN 기반 모델은 인간의 입력 없이 랜덤 노이즈에서부터 일관된 네마디 심볼릭 음악 시퀀스를 생성할 수 있는가?
RQ2다른 아키텍처적 가정(재즈링, 컴포저, 하이브리드)은 다트랙 음악 생성의 품질과 조율에 어떤 영향을 미치는가?
RQ3모델들은 노이즈가 있는 실제 MIDI 파일에서 학습함에도 불구하고 의미 있는 음악 패턴을 학습하고 유의미한 출력을 생성할 수 있는가?
RQ4주어진 피아노 멜로디에서 보조 트랙을 생성함으로써 모델은 효과적으로 인간-AI 협업 음악 창작을 지원할 수 있는가?

주요 결과

제안된 MuseGAN 모델은 랜덤 노이즈에서부터 일관된 네마디 음악 시퀀스를 성공적으로 생성하여, GAN을 사용한 엔드 투 엔드 심볼릭 음악 생성의 가능성을 입증한다.
하이브리드 모델은 정량적 메트릭스와 주관적 평가 모두에서 재즈링 모델과 컴포저 모델을 앞서며, 더 뛰어난 트랙 간 조율과 음악적 일관성을 보여준다.
모델들은 노이즈가 있는 MIDI 파일에도 잘 일반화되어 있으며, 데이터의 결함에도 불구하고 의미 있는 음악 패턴을 학습한다.
조건부 생성은 효과적인 인간-AI 협업을 가능하게 한다: 인간이 작곡한 피아노 트랙을 기반으로 네 개의 추가 악기 트랙을 음악적으로 타당한 방식으로 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.