[논문 리뷰] POP909: A Pop-song Dataset for Music Arrangement Generation
POP909는 리드 멜로디 및 원본 오디오에 맞춰 템포, 비트, 음향, 코드 주석이 있는 909개의 전문 피아노 편곡(MIDI)을 제공하며, 기본 Transformer 모델을 사용한 피아노 반주 및 교차 모달 편곡 연구를 가능하게 한다.
Music arrangement generation is a subtask of automatic music generation, which involves reconstructing and re-conceptualizing a piece with new compositional techniques. Such a generation process inevitably requires reference from the original melody, chord progression, or other structural information. Despite some promising models for arrangement, they lack more refined data to achieve better evaluations and more practical results. In this paper, we propose POP909, a dataset which contains multiple versions of the piano arrangements of 909 popular songs created by professional musicians. The main body of the dataset contains the vocal melody, the lead instrument melody, and the piano accompaniment for each song in MIDI format, which are aligned to the original audio files. Furthermore, we provide the annotations of tempo, beat, key, and chords, where the tempo curves are hand-labeled and others are done by MIR algorithms. Finally, we conduct several baseline experiments with this dataset using standard deep music generation algorithms.
연구 동기 및 목표
- 팝 송의 편곡 생성을 지원하기 위해 시간 정렬된 고품질의 피아노 편곡 데이터셋을 제공한다.
- 리드 멜로디에 조건화하고 오디오(재오케스트레이션)에 조건화된 피아노 반주 생성을 정확한 감독 주석과 함께 가능하게 한다.
- 심볼릭 음악 편곡 및 교차 모달 생성을 위한 심층 학습 모델의 평가 및 개발을 촉진한다.
제안 방법
- 원본 오디오 및 보컬 리드 멜로디에 맞춰 MIDI로 정렬된 909개의 전문 피아노 편곡을 수집한다.
- 템포 커브를 수동으로 주석하고 MIR 알고리듬을 사용하여 비트, 음조(key), 코드 라벨을 추출한다.
- 高품질의 스타일 일관된 피아노 편곡을 보장하기 위해 두 팀으로 구성된 편곡-리뷰 프로세스를 운영한다.
- 피아노 편곡을 멜로디와 반주를 합친 형태의 MIDI 유사 이벤트 시퀀스로 표현하고 Transformer 모델을 사용해 멜로디와 반주의 결합 분포를 학습한다.
- 상대 위치 인코딩이 있는 GPT-2 스타일의 Transformer를 MIDI 유사 이벤트 어휘에 대해 학습시켜 다성음 생성 모델링을 수행한다.
- 추론 시 MELODY와 BRIDGE 트랙을 합쳐 멜로디에 따른 피아노 편곡 생성을 조건화한다.
실험 결과
연구 질문
- RQ1POP909를 어떻게 활용하여 리드 멜로디 또는 오디오로 도출된 편곡에 조건화된 피아노 반주 생성을 학습할 수 있는가?
- RQ2표준 심볼릭 편곡 작업에서 Transformer와 같은 기본 딥 제너레이티브 모델이 POP909로 얼마나 성능을 달성하는가?
- RQ3데이터셋이 무조건적 심볼릭 생성, 표현적 연주 렌더링 또는 교차 모달 편곡 작업을 지원할 수 있는가?
주요 결과
| 훈련 손실 | 훈련 정확도 | 검증 손실 | 검증 정확도 |
|---|---|---|---|
| 2.08978 | 0.62021 | 2.38122 | 0.54529 |
- 데이터셋은 1950년대부터 약 2010년대까지의 909곡에 걸친 약 60시간의 편곡을 포함하며, 파일당 MELODY, BRIDGE, PIANO의 세 개의 MIDI 트랙이 오디오에 정렬되어 있다.
- 템포 커브는 수동으로 라벨링되며, 비트, 음조 및 코드는 MIDI/오디오에서 MIR 방법을 사용해 주석이 제공된다.
- 두 팀의 품질 관리로 편곡 작업에 적합하고 스타일 일관된 고품질 피아노 편곡을 얻을 수 있다.
- MIDI 유사 이벤트 표현에 대한 기본 Transformer 실험은 Train Loss 2.08978 (Train) 및 2.38122 (Test), 정확도 0.62021 (Train) 및 0.54529 (Test)를 보인다.
- 멜로디에 조건화된 피아노 편곡 생성은 화성 관계 및 리듬의 일관성을 보여 주며, Task 1과 Task 2에 대한 데이터셋 활용 가능성을 시사한다.
- 데이터셋은 편곡 생성과 교차 모달 생성(예: 오디오-피아노 축소)을 모두 지원하며, 편곡 중심 연구를 위한 기존 데이터셋보다 더 풍부한 자원이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.