Skip to main content
QUICK REVIEW

[논문 리뷰] Notochord: a Flexible Probabilistic Model for Embodied MIDI Performance

Victor Shepardson, Jack Armitage|arXiv (Cornell University)|2022. 09. 17.
Music Technology and Sound Studies인용 수 5
한 줄 요약

노토코르드는 실시간 MIDI 연주를 위한 저지연, 확률적 딥러닝 모델로, 음악 생성 과정에서 미세한 해석 가능한 간섭을 가능하게 한다. 라크 MIDI 데이터셋으로 훈련된 이 모델은 다성분, 다트랙 생성을 지원하며, 밀리초 이내 응답 시간을 제공하며, 개방형 소프트웨어와 모델 체크포인트를 통해 스위블러블 생성, 화성화, 라이브 코딩, 가능성 기반 인터페이스 등의 애플리케이션을 가능하게 한다.

ABSTRACT

Deep learning-based probabilistic models of musical data are producing increasingly realistic results and promise to enter creative workflows of many kinds. Yet they have been little-studied in a performance setting, where the results of user actions typically ought to feel instantaneous. To enable such study, we designed Notochord, a deep probabilistic model for sequences of structured events, and trained an instance of it on the Lakh MIDI dataset. Our probabilistic formulation allows interpretable interventions at a sub-event level, which enables one model to act as a backbone for diverse interactive musical functions including steerable generation, harmonization, machine improvisation, and likelihood-based interfaces. Notochord can generate polyphonic and multi-track MIDI, and respond to inputs with latency below ten milliseconds. Training code, model checkpoints and interactive examples are provided as open source software.

연구 동기 및 목표

  • 실시간, 저지연 상호작용이 가능한 MIDI 시퀀스를 위한 딥 확률 모델을 설계하는 것.
  • 생성 과정 중에 음고, 타이밍, 펄스 등에 대한 세밀한, 해석 가능한 간섭(예: 제약 설정)을 가능하게 하는 것.
  • 하나의 통합 모델 기반 아키텍처를 통해 화성화, 즉흥연주, 라이브 코딩 등의 다양한 상호작용 음악 기능을 지원하는 것.
  • 배치 모드로 작동하는 느린 AI 음악 생성과 연주에 필요한 즉각성 사이의 격차를 메우는 것.
  • 확장성과 커뮤니티 연구를 지원하기 위해 개방형 훈련 코드, 모델 체크포인트, 상호작용 예제를 제공하는 것.

제안 방법

  • 노토코르드는 연속 시간과 펄스 모델링을 갖춘 RNN 기반 아키텍처를 사용하며, 노트온, 노트오프, 컨트롤러 이벤트를 서로 다른 이벤트로 간주하지만 맥락적으로 조건화된 방식으로 처리한다.
  • 연속 변수에 대해 이산화된 혼합 로지스틱 분포를 사용하고, 임의의 순서의 노트 인과성 분해를 통해 모델링 효율성을 향상시키는 확률적 자동회귀 프레임워크를 적용한다.
  • богат한 분위기 있는 음악 패턴과 스타일 일관성을 포착하기 위해 라크 MIDI 데이터셋의 100,000首 곡에 대해 훈련한다.
  • 예를 들어 음계나 타이밍 제약을 고정하는 조건부 질의를 통해 구조적 간섭을 지원하며, 다른 속성은 맥락적으로 예측하도록 허용한다.
  • OSC를 통한 실시간 환경(예: 슈퍼클러스터, 타이달사이클즈)과 통합되어, 라이브 코딩 및 저지연 연주 상호작용을 가능하게 한다.
  • 모델의 확률 점수를 노출시켜 음고 선택이나 파rameter 조정 기반의 가능성 기반 인터페이스를 가능하게 한다.

실험 결과

연구 질문

  • RQ1어떻게 딥 확률 모델을 설계하여 10ms 이내 응답 시간을 확보하는 실시간 저지연 음악 상호작용을 가능하게 할 수 있는가?
  • RQ2확률적 시퀀스 모델 내부에 세밀한, 해석 가능한 간섭(예: 음고나 타이밍 제약)을 통합할 수 있는 정도는 어느 정도이며, 생성 품질을 훼손하지 않을 수 있는가?
  • RQ3하나의 통합 모델이 화성화, 즉흥연주, 라이브 코딩 등의 다양한 상호작용 음악 작업에 대해 민첩한 백본으로 기능할 수 있는가?
  • RQ4모델의 확률적 구성이 가능성 또는 놀라움 기반의 새로운 인터페이스 설계를 어떻게 가능하게 하는가?
  • RQ5신체적 음악적 상황에서 실시간 MIDI 생성을 위한 딥러닝 모델을 사용할 경우의 실용적 성능적 타협 사항은 무엇인가?

주요 결과

  • 노토코르드는 10밀리초 이하의 응답 지연를 달성하여, 신체적 연주에 적합한 인지적으로 즉각적인 상호작용을 가능하게 한다.
  • 맥락 인식 기반의 조건부 샘플링을 통해 다성분 및 다트랙 MIDI 생성을 지원하며, 실시간 제어가 가능하다.
  • 조건부 질의를 통해 사용자는 특정 속성(예: 음계 C, 펄스 99)을 제약할 수 있고, 나머지 부분은 맥락적으로 생성하도록 한다.
  • 실시간 화성화, 기계적 즉흥연주, 타이달사이클즈를 통한 라이브 코딩, 가능성 기반 음고 선택 인터페이스 등 다양한 응용 프로그램을 지원한다.
  • OSC와 슈퍼클러스터를 통한 통합을 통해 라이브 코딩 워크플로우에 성공적으로 통합되었으며, 실시간 연주 환경과의 호환성을 입증했다.
  • 훈련 코드, 모델 체크포인트, 상호작용 예제가 모두 개방형으로 공개되어 향후 연구 및 실험을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.