[논문 리뷰] Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset
본 논문은 MAESTRO 데이터세트로 가능해진 이산 음표 이벤트를 이용한 피아노 음악 모델링의 요인화 파이프라인인 Wave2Midi2Wave를 소개하고, 이를 통해 장기적 음악 구조를 갖춘 음성 기록, 생성 및 합성을 수행한다. 또한 학습과 평가를 위한 대형 정렬된 오디오-MIDI 데이터셋인 MAESTRO를 공개한다.
Generating musical audio directly with neural networks is notoriously difficult because it requires coherently modeling structure at many different timescales. Fortunately, most music is also highly structured and can be represented as discrete note events played on musical instruments. Herein, we show that by using notes as an intermediate representation, we can train a suite of models capable of transcribing, composing, and synthesizing audio waveforms with coherent musical structure on timescales spanning six orders of magnitude (~0.1 ms to ~100 s), a process we call Wave2Midi2Wave. This large advance in the state of the art is enabled by our release of the new MAESTRO (MIDI and Audio Edited for Synchronous TRacks and Organization) dataset, composed of over 172 hours of virtuosic piano performances captured with fine alignment (~3 ms) between note labels and audio waveforms. The networks and the dataset together present a promising approach toward creating new expressive and interpretable neural models of music.
연구 동기 및 목표
- 다중 시간 스케일에 걸친 피아노 음악 모델링을 위한 중간 표현으로 이산 음표 이벤트의 사용을 동기화한다.
- 전사, 언어 모델링 및 조건부 오디오 합성(Wave2Midi2Wave)을 포함하는 요인화된 아키텍처를 제안한다.
- 전사, 모델링 및 합성 작업 전반에 걸친 감독 학습을 가능하게 하기 위해 크고 잘 정렬된 MAESTRO 데이터셋을 공개한다.
- MAPS에서 최신 수준의 피아노 전사를 시연하고 MIDI 데이터에 의해 가이드되는 일관된 피아노 생성 및 합성을 보인다.
제안 방법
- 세 성분으로 구성된 시스템을 정의한다: (i) 오디오를 기호적 MIDI 음표로 매핑하는 인코더(Onsets and Frames 전사); (ii) MIDI 음표 시퀀스를 자기 주의(self-attention) 기반 음악 언어 모델로 모델링하는 프라이어; (iii) MIDI에 조건부인 WaveNet으로 MIDI에서 오디오를 합성하는 디코더.
- research_questions
- 3-5 concrete research questions the paper investigates
- 1) MIDI를 중간 표현으로 사용하는 요인화 파이프라인이 매우 긴 시간 척도에서 일관된 피아노 음악을 재현할 수 있는가? 2) 크고 잘 정렬된 MAESTRO 데이터세트의 공개가 최첨단 전사 및 언어 모델링·합성 모델의 효과적 학습을 가능하게 하는가? 3) 전사된 또는 실제 MIDI를 조건으로 하는 WaveNet이 엔드-투-엔드 접근법과 비교해 음질 측면에서 얼마나 우수한가? 4) 프레임워크가 더 긴 음악 구조(약 1분까지)로 확장되고 보지 않은 공연에도 일반화될 수 있는가? 5) 이 접근법을 다른 악기 또는 다중 악기 구성으로 확장할 수 있는가?
- key_findings ab
- 1) 시스템은 MAPS에서 이산 음표를 이용한 전사와 함께 약 1분 정도의 일관된 피아노 음악을 생성한다.
- 2) MAESTRO에는 약 172.3시간의 정렬된 오디오와 MIDI가 포함되어 있으며 약 3 ms 정렬 정확도를 보인다.
- 3) MAESTRO 및 설정된 조건에서의 Audio-MIDI 전사 모델은 MAPS 벤치마크에서 최첨단 결과를 달성한다.
- 4) MAESTRO 및 MAESTRO-T에서 학습된 Music Transformer는 경쟁력 있는 검증 음의 부정 로그 가능도(NLL)를 달성한다.
- 5) MIDI를 조건으로 하는 WaveNet은 음색 및 공간 특징을 재현하고 청취 테스트에서 인지적으로 현실적인 출력을 제공한다.
- 6) 청취 테스트에서 출처 간 유의한 차이가 나타났으며, 실제 녹음과 일부 WaveNet 조건부 출력이 현실감 면에서 견줄 만하다고 평가되었다.
- table_headers
- []
- table_rows
- []
실험 결과
연구 질문
- RQ11) MIDI를 중간 표현으로 사용하는 요인화 파이프라인이 매우 긴 시간 척도에서 일관된 피아노 음악을 재현할 수 있는가?
- RQ22) 크고 잘 정렬된 MAESTRO 데이터세트의 공개가 최첨단 전사 및 언어 모델링·합성 모델의 효과적 학습을 가능하게 하는가?
- RQ33) 전사된 또는 실제 MIDI를 조건으로 하는 WaveNet이 엔드-투-엔드 접근법과 비교해 음질 측면에서 얼마나 우수한가?
- RQ44) 프레임워크가 더 긴 음악 구조(약 1분까지)로 확장되고 보지 않은 공연에도 일반화될 수 있는가?
- RQ55) 이 접근법을 다른 악기 또는 다중 악기 구성으로 확장할 수 있는가?
주요 결과
- 시스템은 전사, 언어 모델, MIDI 조건부 WaveNet를 결합해 약 1분 분량의 일관된 피아노 음악을 생성한다.
- MAESTRO는 약 172시간이 넘는 정렬된 오디오와 MIDI를 포함하며 약 3 ms의 정렬 정확도를 보인다.
- 수정된 Onsets and Frames 전사 모델은 구성된 설정에서 MAPS 벤치마크의 피아노 전사에서 최첨단 결과를 달성한다.
- MAESTRO 및 MAESTRO-T에서 학습된 Music Transformer 모델은 경쟁력 있는 검증 음의 음향 로그 가능도를 달성한다.
- MIDI를 조건으로 하는 WaveNet은 음색 및 공간 특성을 재현하고 청취 테스트에서 지각적으로 현실적인 출력을 생성한다.
- 청취 테스트에서 소스 간 차이가 유의하며, 실제 녹음은 일부 WaveNet 조건부 출력과 지각적 현실성에서 비교 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.