[논문 리뷰] MidiNet: A Convolutional Generative Adversarial Network for Symbolic-domain Music Generation
MidiNet은 시기 도메인에서 바 단위의 멜로디를 생성하기 위해 2-D 컨디셔너를 갖춘 CNN-GAN을 도입하여 MelodyRNN과 비교할 만한 현실성과, 특히 코드 컨디셔닝 시 더 높은 인지된 창의성을 보인다.
Most existing neural network models for music generation use recurrent neural networks. However, the recent WaveNet model proposed by DeepMind shows that convolutional neural networks (CNNs) can also generate realistic musical waveforms in the audio domain. Following this light, we investigate using CNNs for generating melody (a series of MIDI notes) one bar after another in the symbolic domain. In addition to the generator, we use a discriminator to learn the distributions of melodies, making it a generative adversarial network (GAN). Moreover, we propose a novel conditional mechanism to exploit available prior knowledge, so that the model can generate melodies either from scratch, by following a chord sequence, or by conditioning on the melody of previous bars (e.g. a priming melody), among other possibilities. The resulting model, named MidiNet, can be expanded to generate music with multiple MIDI channels (i.e. tracks). We conduct a user study to compare the melody of eight-bar long generated by MidiNet and by Google's MelodyRNN models, each time using the same priming melody. Result shows that MidiNet performs comparably with MelodyRNN models in being realistic and pleasant to listen to, yet MidiNet's melodies are reported to be much more interesting.
연구 동기 및 목표
- CNN이 기호 도메인에서 바 단위로 멜로디를 효과적으로 생성할 수 있는지 조사한다.
- 이전 음악 정보를 포함하기 위한 컨디셔닝 메커니즘을 갖춘 GAN 프레임워크(생성기, 판별기)를 개발한다.
- 생성 가이드를 위해 이전 바와 화음 진행에 대한 컨디셔닝을 가능하게 한다.
- 다중 트랙 MIDI 및 다양한 컨디셔닝으로의 확장 가능성을 모델의 유연성을 보여준다.
- 재현 가능한 구현과 MelodyRNN과의 기준선 비교를 제공한다.
제안 방법
- 각 바를 시간 스텝 전반에 걸친 음의 존재를 포착하는 h-by-w 행렬로 표현한다.
- 랜덤 노이즈 z로부터 입력되는 생성기 CNN(G)을 사용하여 전치합층(Transpose Convolutions)을 통해 바와 같은 2-D 점수를 생성한다.
- 실제 바 데이터와 생성된 바 데이터를 구분하기 위해 교차 엔트로피 손실을 사용하는 판별기 CNN(D)을 학습시킨다.
- 컨디셔너 CNN을 도입해 컨디셔닝 행렬(예: 이전 바)을 처리하고 이를 G의 중간 층에 주입한다.
- 특징 매칭과 편향된 라벨 스무딩(일방향)을 적용하여 GAN 학습을 안정화한다.
- 세 가지 MidiNet 변형을 비교한다: (1) 이전 바 컨디셔닝이 포함된 멜로디만, (2) 안정화를 위한 코드 컨디셔닝을 포함한 멜로디, (3) 창의성을 위한 코드 및 이전 바 컨디셔닝을 포함한 멜로디.
실험 결과
연구 질문
- RQ1CNN-GAN이 기호 MIDI 도메인에서 현실적이고 듣기 좋은 멜로디를 생성할 수 있는가?
- RQ2이전 바에 대한 컨디셔닝이 시간적 일관성과 음악적 구조를 향상시키는가?
- RQ3화음 진행에 대한 컨디셔닝이 화성적으로 일관된 멜로디 생성을 개선하는가?
- RQ4현존하는 RNN 기반 기준선(MelodyRNN)과 현실성, 듣기 좋음, 흥미도 면에서 MidiNet은 어떻게 비교되는가?
- RQ5이 접근법이 다중 트랙 음악 생성으로 확장될 수 있는가?
주요 결과
- MidiNet 모델 1(이전 바 컨디셔닝)은 듣는 이들에게 더 흥미롭게 느껴지며 현실성과 듣기 좋음 면에서 MelodyRNN과 비슷한 멜로디를 산출한다.
- MidiNet 모델 2(코드 컨디셔닝 추가)는 음악 배경이 있든 없든 연구된 변형들 중 가장 높은 듣기 좋음과 현실성을 달성한다.
- 모델 3(코드와 이전 바를 포함한 강한 2-D 컨디셔닝)은 바 간의 더 강한 연결을 강제해 더 창의적인 결과를 낳는다.
- 사용자들은 MelodyRNN 모델을 일반적으로 반복성이나 안전성으로 인해 덜 흥미로운 것으로 보았고, MidiNet 변형은 더 다양하고 잠재적으로 창의적인 출력을 제공했다.
- 본 연구는 컨디셔너 CNN을 통한 2-D 컨디셔닝이 순환 신경망 없이도 시간적 구조를 효과적으로 활용함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.