QUICK REVIEW

[논문 리뷰] Notochord: a Flexible Probabilistic Model for Embodied MIDI Performance

Victor Shepardson, Jack Armitage|arXiv (Cornell University)|2022. 09. 17.

Music Technology and Sound Studies인용 수 5

한 줄 요약

노토코르드는 실시간 MIDI 연주를 위한 저지연, 확률적 딥러닝 모델로, 음악 생성 과정에서 미세한 해석 가능한 간섭을 가능하게 한다. 라크 MIDI 데이터셋으로 훈련된 이 모델은 다성분, 다트랙 생성을 지원하며, 밀리초 이내 응답 시간을 제공하며, 개방형 소프트웨어와 모델 체크포인트를 통해 스위블러블 생성, 화성화, 라이브 코딩, 가능성 기반 인터페이스 등의 애플리케이션을 가능하게 한다.

ABSTRACT

Deep learning-based probabilistic models of musical data are producing increasingly realistic results and promise to enter creative workflows of many kinds. Yet they have been little-studied in a performance setting, where the results of user actions typically ought to feel instantaneous. To enable such study, we designed Notochord, a deep probabilistic model for sequences of structured events, and trained an instance of it on the Lakh MIDI dataset. Our probabilistic formulation allows interpretable interventions at a sub-event level, which enables one model to act as a backbone for diverse interactive musical functions including steerable generation, harmonization, machine improvisation, and likelihood-based interfaces. Notochord can generate polyphonic and multi-track MIDI, and respond to inputs with latency below ten milliseconds. Training code, model checkpoints and interactive examples are provided as open source software.

연구 동기 및 목표

실시간, 저지연 상호작용이 가능한 MIDI 시퀀스를 위한 딥 확률 모델을 설계하는 것.
생성 과정 중에 음고, 타이밍, 펄스 등에 대한 세밀한, 해석 가능한 간섭(예: 제약 설정)을 가능하게 하는 것.
하나의 통합 모델 기반 아키텍처를 통해 화성화, 즉흥연주, 라이브 코딩 등의 다양한 상호작용 음악 기능을 지원하는 것.
배치 모드로 작동하는 느린 AI 음악 생성과 연주에 필요한 즉각성 사이의 격차를 메우는 것.
확장성과 커뮤니티 연구를 지원하기 위해 개방형 훈련 코드, 모델 체크포인트, 상호작용 예제를 제공하는 것.

제안 방법

노토코르드는 연속 시간과 펄스 모델링을 갖춘 RNN 기반 아키텍처를 사용하며, 노트온, 노트오프, 컨트롤러 이벤트를 서로 다른 이벤트로 간주하지만 맥락적으로 조건화된 방식으로 처리한다.
연속 변수에 대해 이산화된 혼합 로지스틱 분포를 사용하고, 임의의 순서의 노트 인과성 분해를 통해 모델링 효율성을 향상시키는 확률적 자동회귀 프레임워크를 적용한다.
богат한 분위기 있는 음악 패턴과 스타일 일관성을 포착하기 위해 라크 MIDI 데이터셋의 100,000首 곡에 대해 훈련한다.
예를 들어 음계나 타이밍 제약을 고정하는 조건부 질의를 통해 구조적 간섭을 지원하며, 다른 속성은 맥락적으로 예측하도록 허용한다.
OSC를 통한 실시간 환경(예: 슈퍼클러스터, 타이달사이클즈)과 통합되어, 라이브 코딩 및 저지연 연주 상호작용을 가능하게 한다.
모델의 확률 점수를 노출시켜 음고 선택이나 파rameter 조정 기반의 가능성 기반 인터페이스를 가능하게 한다.

실험 결과

연구 질문

RQ1어떻게 딥 확률 모델을 설계하여 10ms 이내 응답 시간을 확보하는 실시간 저지연 음악 상호작용을 가능하게 할 수 있는가?
RQ2확률적 시퀀스 모델 내부에 세밀한, 해석 가능한 간섭(예: 음고나 타이밍 제약)을 통합할 수 있는 정도는 어느 정도이며, 생성 품질을 훼손하지 않을 수 있는가?
RQ3하나의 통합 모델이 화성화, 즉흥연주, 라이브 코딩 등의 다양한 상호작용 음악 작업에 대해 민첩한 백본으로 기능할 수 있는가?
RQ4모델의 확률적 구성이 가능성 또는 놀라움 기반의 새로운 인터페이스 설계를 어떻게 가능하게 하는가?
RQ5신체적 음악적 상황에서 실시간 MIDI 생성을 위한 딥러닝 모델을 사용할 경우의 실용적 성능적 타협 사항은 무엇인가?

주요 결과

노토코르드는 10밀리초 이하의 응답 지연를 달성하여, 신체적 연주에 적합한 인지적으로 즉각적인 상호작용을 가능하게 한다.
맥락 인식 기반의 조건부 샘플링을 통해 다성분 및 다트랙 MIDI 생성을 지원하며, 실시간 제어가 가능하다.
조건부 질의를 통해 사용자는 특정 속성(예: 음계 C, 펄스 99)을 제약할 수 있고, 나머지 부분은 맥락적으로 생성하도록 한다.
실시간 화성화, 기계적 즉흥연주, 타이달사이클즈를 통한 라이브 코딩, 가능성 기반 음고 선택 인터페이스 등 다양한 응용 프로그램을 지원한다.
OSC와 슈퍼클러스터를 통한 통합을 통해 라이브 코딩 워크플로우에 성공적으로 통합되었으며, 실시간 연주 환경과의 호환성을 입증했다.
훈련 코드, 모델 체크포인트, 상호작용 예제가 모두 개방형으로 공개되어 향후 연구 및 실험을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.