QUICK REVIEW

[논문 리뷰] DeepBach: a Steerable Model for Bach Chorales Generation

Gaëtan Hadjeres, François Pachet|arXiv (Cornell University)|2016. 12. 03.

Music and Audio Processing참고 문헌 24인용 수 125

한 줄 요약

DeepBach는 노드 제약을 적용 가능한 의존망 모델로, pseudo-Gibbs 샘플링을 통해 4파트 바흐 합창곡을 생성하며 음, 리듬, 코다에 대한 사용자의 제약을 허용합니다. Bach 스타일의 품질을 달성하고 MuseScore 통합을 통한 대화형 작곡을 가능하게 합니다.

ABSTRACT

This paper introduces DeepBach, a graphical model aimed at modeling polyphonic music and specifically hymn-like pieces. We claim that, after being trained on the chorale harmonizations by Johann Sebastian Bach, our model is capable of generating highly convincing chorales in the style of Bach. DeepBach's strength comes from the use of pseudo-Gibbs sampling coupled with an adapted representation of musical data. This is in contrast with many automatic music composition approaches which tend to compose music sequentially. Our model is also steerable in the sense that a user can constrain the generation by imposing positional constraints such as notes, rhythms or cadences in the generated score. We also provide a plugin on top of the MuseScore music editor making the interaction with DeepBach easy to use.

연구 동기 및 목표

Bach 스타일의 4파트 합창곡을 제어 가능한 제약과 함께 자동으로 생성하고자 하는 동기를 제시한다.
다성 음악에 적합한 데이터 표현 및 의존망 기반 아키텍처를 제안한다.
사용자가 부여한 제약을 지원하는 pseudo-Gibbs 샘플링 생성 절차를 개발한다.
실험과 MuseScore 플러그인을 통해 시스템의 음악성 및 상호작용성을 입증한다.

제안 방법

4개의 바흐 음성을 MIDI 피치로 각각 표현하고, 음 목록에 hold 기호를 통합한다.
각 음성에 대해 시간에 걸쳐 공유되는 p_i(V_i^t | V_{-i,t}, M, theta_i)의 네 가지 조건분포로 구성된 의존망 네트를 정의한다.
로컬 맥락(t-Δt to t+Δt) 내에서 V_i^t를 예측하기 위해 Deep RNNs(두 개의 LSTM)과 비순환 분기를 사용한다.
시간에 걸친 가중치 공유를 통해 각 음성의 로컬 로그 가능도(local log-likelihoods)를 최대화하여 학습한다.
Algorithm 1과 같은 pseudo-Gibbs 샘플링으로 생성하며 한 번에 하나의 V_i^t를 재샘플링한다; 음성, 리듬, fermatas, 메타데이터에 대한 제약을 허용한다.
샘플링 효율을 개선하기 위한 hold 기호를 포함한 GPU 가속 병렬화 및 데이터 표현을 제공한다.

실험 결과

연구 질문

RQ1제어 가능한 샘플링을 갖춘 의존망 모델이 Bach 스타일의 4파트 합창곡을 생성할 수 있는가?
RQ2hold 기호와 로컬 컨텍스트를 도입하는 것이 Bach 합창곡의 특징을 효과적으로 포착하는가?
RQ3사용자가 부여한 제약과 함께 일관된 다성 음악을 생성하는 데 pseudo-Gibbs 샘플링의 성능은 어떠한가?
RQ4MIDI 기반의 음 이름이 풍부한 인코딩이 인터랙티브 사용에서 음악적 합법성(legality)과 표기에 도움이 되는가?
RQ5MuseScore 플러그인을 통해 reharmonization, cadences, modulations와 같은 대화형 워크플로를 시스템이 지원할 수 있는가?

주요 결과

모델은 Bach 스타일의 4파트 합창곡을 음악적으로 설득력 있게 생성한다.
선택된 데이터 표현으로 pseudo-Gibbs 샘플링 접근법은 일관된 Bach 유사 질감과 재하모나이제이션을 산출한다.
제약 있는 생성은 다른 음성을 샘플링하는 동안 상성으로 소프라노 멜로디, 리듬, 화음, 코다, 또는 조성 변화 등을 고정할 수 있다.
온라인 인간 평가에서 더 복잡한 모델일수록 Bach 유사성이 증가했으며, 연구에서 대략 절반의 DeepBach 샘플이 청취자에 의해 Bach로 판단되었다.
시스템은 MuseScore 플러그인을 통한 대화형 작곡과 음 이름 인코딩 및 조성 방향 제어에의 적응을 지원한다.
실험은 생성 속도가 몇 초 이내에 합창곡을 생성하기에 충분하며 GPU 병렬화로 확장 가능한 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.