Skip to main content
QUICK REVIEW

[논문 리뷰] Learning a Latent Space of Multitrack Measures

Ian Simon, Adam P. Roberts|arXiv (Cornell University)|2018. 06. 01.
Music and Audio Processing참고 문헌 27인용 수 35
한 줄 요약

이 논문은 기호적 MIDI 표현을 분리된 잠재공간으로 인코딩하는 조건부 VAE를 사용하여 다트랙 다성음 음악 측을 위한 잠재공간 모델을 제안한다. MusicVAE를 확장하여 최대 8개의 트랙, 동적 표현 및 마이크로타이밍을 지원하고, 코드 조건부 조건을 도입함으로써 조화와 편성 간의 분리가 이루어지며, 음악적으로 의미 있는 연산, 예를 들어 보간, 속성 조작, 일관된 장기 시퀀스 생성이 가능해진다.

ABSTRACT

Discovering and exploring the underlying structure of multi-instrumental music using learning-based approaches remains an open problem. We extend the recent MusicVAE model to represent multitrack polyphonic measures as vectors in a latent space. Our approach enables several useful operations such as generating plausible measures from scratch, interpolating between measures in a musically meaningful way, and manipulating specific musical attributes. We also introduce chord conditioning, which allows all of these operations to be performed while keeping harmony fixed, and allows chords to be changed while maintaining musical "style". By generating a sequence of measures over a predefined chord progression, our model can produce music with convincing long-term structure. We demonstrate that our latent space model makes it possible to intuitively control and generate musical sequences with rich instrumentation (see https://goo.gl/s2N7dV for generated audio).

연구 동기 및 목표

  • 심층 생성 모델을 사용하여 다트랙 다성음 음악 측의 잠재적 구조를 모델링한다.
  • 공유된 잠재공간에서 보다 직관적이고 음악적으로 의미 있는 연산, 예를 들어 보간과 속성 조작을 가능하게 한다.
  • 코드 조건부 조건을 통해 조화와 편성 간의 분리를 실현함으로써 조화와 편성에 대해 독립적으로 제어할 수 있도록 한다.
  • 잠재 코드 보간과 사전 정의된 코드 진행을 조합하여 일관되고 장기적인 음악 시퀀스를 생성한다.

제안 방법

  • 이벤트 기반 표현을 사용하여 MusicVAE를 확장하여 최대 8개의 다성음 MIDI 트랙, 동적 표현 및 마이크로타이밍을 모델링한다.
  • 정규 분포 사전과 순차적 RNN 디코더를 사용한 조건부 VAE를 적용하여 잠재공간에서 노트 이벤트를 모델링한다.
  • 잠재 상태 내 피치 클래스 분포에서 유도된 코드 정보를 디코더에 조건부로 적용함으로써 코드 조건부 조건을 도입한다.
  • 잠재공간에서 구면 선형 보간(slerp)을 사용하여 두 음악 측 사이의 부드러운 변형을 생성한다.
  • 목표 속성(예: 노트 밀도, 악기 유형)이 있는 예제와 없는 예제 간의 평균 잠재차를 계산하여 속성 벡터 산술을 적용한다.
  • 각 트랙의 노트 온/오프 시간, 편지, 베이스 변경을 인코딩하는 계층적 이벤트 표현을 사용한다.

실험 결과

연구 질문

  • RQ1심층 생성 모델은 다트랙 음악의 조화적 및 편성적 구조를 모두 포괄하는 분리된 잠재공간을 학습할 수 있는가?
  • RQ2잠재공간 내 보간이 두 개의 다소 다른 음악 측 사이에서 음악적으로 일관된 전환을 생성할 수 있는가?
  • RQ3재학습 없이도 잠재 벡터 산술을 통해 특정 속성(예: 노트 밀도 증가) 조작을 어느 정도 성공적으로 달성할 수 있는가?
  • RQ4코드 조건부 조건은 조화와 악기 편성에 대해 독립적인 제어를 가능하게 하면서도 스타일 일관성을 유지할 수 있는가?
  • RQ5잠재 코드 보간과 고정된 코드 진행을 조합하여 장기적이고 일관된 음악 시퀀스를 생성할 수 있는가?

주요 결과

  • 모델은 사전 분포에서부터 다양한, 타당한 다트랙 측을 성공적으로 생성하여 강력한 제로샷 생성 능력을 보여주었다.
  • 잠재공간 보간은 측 간에 부드럽고 음악적으로 의미 있는 전환을 생성하였으며, 청각적으로 일관된 리듬적 및 조화적 변화를 보였다.
  • 속성 벡터 산술을 통해 재학습 없이도 음역 범위, 악기 수, 톤의 정체성 등의 음악적 속성을 효과적으로 조작할 수 있었다.
  • 코드 조건부 조건은 다양한 조화적 맥락에서도 일관된 악기 및 리듬 패턴을 유지시켜 주었으며, 그루브 기반 음악 생성을 가능하게 하였다.
  • 단일 잠재 코드에 여러 개의 코드를 조합함으로써 모델은 스타일 일관성을 유지하면서도 조화적으로 변조되는 다측의 일관된 시퀀스를 생성하였다.
  • 명시적 지도 없이도 모델이 베이스 음을 코드 루트에 맞추어 유추하는 것을 학습하였으며, 이는 조화 규범에 대한 암묵적 학습을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.