[논문 리뷰] Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions
REMI를 도입한 Transformer 모델용 비트 기반 이벤트 표현은 Pop 피아노 생성의 리드믹 구조를 개선하고, 이전의 MIDI 유사 접근법보다 우수한 성능을 보인다.
A great number of deep learning based models have been recently proposed for automatic music composition. Among these models, the Transformer stands out as a prominent approach for generating expressive classical piano performance with a coherent structure of up to one minute. The model is powerful in that it learns abstractions of data on its own, without much human-imposed domain knowledge or constraints. In contrast with this general approach, this paper shows that Transformers can do even better for music modeling, when we improve the way a musical score is converted into the data fed to a Transformer model. In particular, we seek to impose a metrical structure in the input data, so that Transformers can be more easily aware of the beat-bar-phrase hierarchical structure in music. The new data representation maintains the flexibility of local tempo changes, and provides hurdles to control the rhythmic and harmonic structure of music. With this approach, we build a Pop Music Transformer that composes Pop piano music with better rhythmic structure than existing Transformer models.
연구 동기 및 목표
- Transformer 기반 Pop 피아노 생성의 리드믹 규칙성 및 음악적 일관성 개선.
- 명시적 계층 구조 및 화성 토큰이 학습 및 생성 품질에 미치는 영향을 조사.
- REMI 기반 모델링과 MIDI 유사 표현 및 기본 Transformer 모델 간 비교.
- 재현 가능한 비트 기반 음악 생성 연구를 위한 개방형 프레임워크와 데이터/코드 제공
제안 방법
- Bar 및 Position 토큰으로 계층적 구조를 인코딩하는 비트 기반 이벤트 표현 REMI를 제안한다.
- 로컬 템포 변화와 화성 컨텍스트를 포착하기 위해 Tempo 및 Chord 토큰으로 입력을 확장한다.
- BACKBONE으로 Transformer-XL을 사용해 REMI 이벤트의 통합 시퀀스를 모델링한다.
- 데이터 준비를 위해 비트/다운비트 추적, 템포 추정 등 오디오 도메인 MIR 도구와 화음 인식을 활용한다.
- 오디오를 통해 자동 전사(Onsets and Frames)로 파생된 775개의 Pop 피아노 트랜스크립션으로 학습한다.
- 객관적 지표(리듬 구조 메트릭)와 주관적 청취 테스트를 통해 Music Transformer 베이스라인과 비교 평가한다
실험 결과
연구 질문
- RQ1비트 기반 계층 그리드(Bar 및 Position)를 임베딩하는 것이 Transformer가 생성한 음악의 리드믹 규칙성 향상에 기여하는가?
- RQ2Tempo 및 Chord 토큰의 추가가 표현력과 화성 제어에 어떤 영향을 미치는가?
- RQ3REMI가 MIDI 유사 표현 및 기본 Transformer 모델과 비교하여 객관적 리듬 지표 및 주관적 품질에서 어떤 차이가 있는가?
주요 결과
- REMI는 비트/다운비트 관련 메트릭으로 입증된 바와 동일한 MIDI 유사 베이스라인 대비 리드믹 규칙성을 향상시킨다.
- 템포 이벤트는 표현적 리듬 자유도에 중요하며 REMI 모델은 다운비트 두드러짐이 더 뛰어난 것으로 나타난다.
- 주관적 평가에서 REMI가 Baseline 1 및 Baseline 3보다 선호된다.
- Note-Off 대신 명시적 Note Duration이 리듬을 MIDI 유사 표현 대비 더 안정화한다.
- 바/포지션 계층 그리드는 바 수준 의존성 학습을 더 명확하게 하고 다중 트랙 조건화의 가능성을 뒷받침한다.
- 객관적 지표는 REMI가 학습 데이터에 더 근접한 리듬을 생성함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.