QUICK REVIEW

[논문 리뷰] The challenge of realistic music generation: modelling raw audio at scale

Sander Dieleman, Aäron van den Oord|arXiv (Cornell University)|2018. 06. 26.

Music and Audio Processing참고 문헌 47인용 수 76

한 줄 요약

이 논문은 수십 초에 걸친 장거리 구조를 포착하기 위해 자동회귀 이산 autoencoders를 사용하여 원시 오디오 도메인에서 피아노 음악을 직접 생성하는 것을 탐구하고, 계층적 모델링 설정 내에서 VQ-VAE와 AMAE 인스턴스화를 비교한다.

ABSTRACT

Realistic music generation is a challenging task. When building generative models of music that are learnt from data, typically high-level representations such as scores or MIDI are used that abstract away the idiosyncrasies of a particular performance. But these nuances are very important for our perception of musicality and realism, so in this work we embark on modelling music in the raw audio domain. It has been shown that autoregressive models excel at generating raw audio waveforms of speech, but when applied to music, we find them biased towards capturing local signal structure at the expense of modelling long-range correlations. This is problematic because music exhibits structure at many different timescales. In this work, we explore autoregressive discrete autoencoders (ADAs) as a means to enable autoregressive models to capture long-range correlations in waveforms. We find that they allow us to unconditionally generate piano music directly in the raw audio domain, which shows stylistic consistency across tens of seconds.

연구 동기 및 목표

원시 오디오에서 음악을 모델링하는 것이 가능하고, 기보 표상으로는 포착하지 못하는 연주 뉘앙스를 포착하는 데 유익하다는 것을 시연한다.
수용 영역을 확장하기 위해 계층적 ADA를 도입하여 지역 구조 편향을 해결한다.
음악 데이터에서 안정적이고 확장 가능한 학습을 위해 두 가지 이산 병목 방식(VQ-VAE 및 AMAE)을 제안하고 비교한다.
다단계 자동회귀 모델이 긴 거리의 음악적 일관성을 갖는 피아노 음악을 생성할 수 있음을 보여준다.
생성 샘플의 충실도와 음악성을 평가하기 위한 질적·정량적 분석을 제공한다.

제안 방법

자동회귀 이산 자동인코더(ADA)를 사용하여 정보 함량을 제어할 수 있는 이산적이고 압축된 컨디셔닝 신호를 생성한다.
(i) 벡터 양자화를 사용하는 VQ-VAE와 (ii) argmax 기반 양자화와 다양성 손실을 가지는 AMAE를 통해 ADA를 구현한다.
인코더 다운샘플링을 연결하여 더 낮은 샘플링 속도의 컨디셔닝 시퀀스를 생성하고, 코드 시퀀스에 대해 두 번째 자동회귀 모델을 학습한다.
다수의 레벨(홉 크기)을 쌓아 유효 수용 영역을 확장하고 긴 거리 구조 모델링을 가능하게 한다.
오디오에 대해 16 kHz mu-law 8비트 양자화를 사용하고, 파형 수준의 NLL과 코드북 perplexities, 질적 인간 청취 연구를 사용하여 평가한다.
인코더, 모듈레이터, 지역 자동회귀 디코더에 WaveNet-스타일 아키텍처를 활용하여 수용 영역을 정밀하게 제어한다.

실험 결과

연구 질문

RQ1자동회귀 모델이 로컬 음색과 단기 역학을 넘어 원시 오디오 피아노 음악의 장거리 구조를 포착할 수 있는가?
RQ2더 큰 수용 영역을 가진 계층적 ADA 아키텍처가 생성된 피아노 오디오의 음악성 및 일관성을 향상시키는가?
RQ3도전적인 음악 데이터에서 학습 안정성, 재구성 품질, 코드 활용 측면에서 VQ-VAE와 AMAE 병목은 어떻게 비교되는가?
RQ4여러 수준의 ADA를 쌓는 것이 조건 없는 피아노 음악 생성의 충실도와 음악성에 뚜렷한 개선을 주는가?

주요 결과

홉 크기 8의 ADA는 기저선 WaveNet보다 조건부 NLL이 크게 낮아 컨디셔닝으로 사용할 때 더 긴 거리의 구조를 가능하게 한다.
AMAE는 도전적인 음악 데이터에서 VQ-VAE보다 수렴이 더 안정적으로 나타나지만, VQ-VAE는 신중한 학습(PBT 등)에서 더 좋은 재구성을 달성할 수 있다.
ADA가 생성한 코드 시퀀스는 원시 파형보다 로컬하게 예측되기 어려워 고수준 자동회귀 모델링이 더 긴 거리 패턴을 포착하게 한다.
2단계 및 3단계 계층은 코드 시퀀스에 ADA를 두고 대형 WaveNet을 feeding하는 구성에서 인지된 음악성에 상당한 이점을 주며, 다계층 모델이 다수의 샘플에서 더 나은 화성 및 구조를 보인다.
장거리 충실성을 높이는 것은 로컬 신호 충실도에 비용이 들 수 있다; 여러 ADA 레벨의 샘플은 대체로 음악적으로 더 일관되지만 충실도는 곡마다 달라질 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.