QUICK REVIEW

[논문 리뷰] LakhNES: Improving multi-instrumental music generation with cross-domain pre-training

Chris Donahue, Huanru Henry Mao|arXiv (Cornell University)|2019. 07. 10.

Music and Audio Processing인용 수 48

한 줄 요약

LakhNES는 Transformer-XL을 다악기 상징 음악 생성에 적용하고 이종성 Lakh MIDI 데이터셋을 NES 유사 4성 음합으로 매핑하여 사전 학습한 뒤 NES-MDB에서 파인튜닝하여 성능을 향상시킨다.

ABSTRACT

We are interested in the task of generating multi-instrumental music scores. The Transformer architecture has recently shown great promise for the task of piano score generation; here we adapt it to the multi-instrumental setting. Transformers are complex, high-dimensional language models which are capable of capturing long-term structure in sequence data, but require large amounts of data to fit. Their success on piano score generation is partially explained by the large volumes of symbolic data readily available for that domain. We leverage the recently-introduced NES-MDB dataset of four-instrument scores from an early video game sound synthesis chip (the NES), which we find to be well-suited to training with the Transformer architecture. To further improve the performance of our model, we propose a pre-training technique to leverage the information in a large collection of heterogeneous music, namely the Lakh MIDI dataset. Despite differences between the two corpora, we find that this transfer learning procedure improves both quantitative and qualitative performance for our primary task.

연구 동기 및 목표

트랜스포머 기반의 상징 음악 생성을 고정된 NES 유사 4악기 음성 합성으로 확장하고 음성 간 폴리포니를 구현한다.
NES-MDB를 포착하는 이벤트 기반 표현을 도입하여 악기 간 음악적으로 중요한 변화들을 포착한다.
Lakh MIDI를 NES 스타일 앙상블로 매핑하고 NES-MDB에서 파인튜닝하여 생성 품질을 높이는 크로스-도메인 사전학습을 탐구한다.
사전학습 및 데이터 증강의 이점을 정량적으로(혼합도(perplexity))와 정성적으로(사람의 연구) 평가한다.

제안 방법

백본으로 Transformer-XL을 채택하여 이벤트 기반 NES-MDB 시퀀스에서 장기 의존성을 모델링한다.
시간 이동 및 악기별 음표 이벤트를 포함하는 631종 이벤트를 사용하는 이벤트 기반 표현을 사용한다.
Lakh MIDI를 NES 앙상블로 매핑하여 대규모 크로스 도메인 사전학습 코퍼스를 만들고 NES-MDB에서 파인튜닝한다.
일반화 능력을 높이기 위해 데이터 증강(전조, 템포 변이, 악기 드롭아웃/셔플링)을 적용한다.
테스트 세트에서의 혼합도와 Turing-like 테스트 및 선호도 사용자 연구를 통해 인간 친화성을 평가한다.

실험 결과

연구 질문

RQ1Transformer-XL이 NES 유사 앙상블을 위한 다악기 상징 음악의 장기 구조를 효과적으로 모델링할 수 있는가?
RQ2NES로 매핑된 대규모 이질적 MIDI 코퍼스에서의 사전학습이 NES-MDB에서의 생성 품질을 향상시키는가?
RQ3데이터 증강이 모델 성능과 생성 음악에 대한 인간 인식에 어떤 영향을 미치는가?
RQ4LakhNES는 n-그램 기반과 LSTM 기반과 비교하여 객관적 및 인간 판단에서 어떤 차이를 보이는가?
RQ5이벤트 기반 표현이 상징 음악의 크로스 도메인 전이 학습에 적합한가?

주요 결과

Transformer-XL은 5-그램(37.25) 및 LSTM(14.11) 기초모델에 비해 테스트 혼합도(PPL)가 현저히 낮다(예: PPL 3.50).
데이터 증강은 LSTM과 Transformer-XL의 성능을 각각 약 10%와 22% 향상시킨다.
NES로 매핑된 Lakh MIDI에서의 사전학습 후 NES-MDB에서 파인튜닝한 LakhNES는 증강만으로 얻는 것보다 약 10% 더 낫고(파인튜닝 후 PPL 2.46)
파인튜닝 전에 Lakh MIDI 사전학습 에포크를 늘리면 수익이 감소하는 수익체감이 나타난다(1, 2, 4 에포크 탐색).
사용자 연구에서 LakhNES는 때로는 baselines보다 인간에 더 가까운 것으로 식별되며 Turing 테스트에서 비사전학습 Transformer-XL보다 우수하나 진짜 데이터가 여전히 우수하다.
LakhNES는 경쟁 방법들보다 선호도에서 높은 점수를 얻었으며, 인간 심판은 여전히 실제 데이터가 더 우수하다고 판단한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.