QUICK REVIEW

[논문 리뷰] Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders

Jesse Engel, Cinjon Resnick|arXiv (Cornell University)|2017. 04. 05.

Music and Audio Processing참고 문헌 26인용 수 298

한 줄 요약

본 논문은 WaveNet 스타일의 자동인코더를 도입하여 오디오 합성을 위한 시간적 임베딩을 학습하고 NSynth에서 평가하며, 스펙트럴 자동인코더 기반 대비 더 우수한 재구성과 의미 있는 음색 보간을 보임.

ABSTRACT

Generative models in vision have seen rapid progress due to algorithmic improvements and the availability of high-quality image datasets. In this paper, we offer contributions in both these areas to enable similar progress in audio modeling. First, we detail a powerful new WaveNet-style autoencoder model that conditions an autoregressive decoder on temporal codes learned from the raw audio waveform. Second, we introduce NSynth, a large-scale and high-quality dataset of musical notes that is an order of magnitude larger than comparable public datasets. Using NSynth, we demonstrate improved qualitative and quantitative performance of the WaveNet autoencoder over a well-tuned spectral autoencoder baseline. Finally, we show that the model learns a manifold of embeddings that allows for morphing between instruments, meaningfully interpolating in timbre to create new types of sounds that are realistic and expressive.

연구 동기 및 목표

외부 조건 없이 긴 범위의 시간 구조를 포착하는 WaveNet 스타일의 자동인코더를 개발한다.
학습 및 평가를 위한 대규모 고품질 NSynth 음표 데이터셋을 생성한다.
스펙트럴 자동인코더 기준 대비 재구성 품질과 지각적 충실도가 향상됨을 시연한다.
학습된 임베딩이 음색과 다이내믹스 전반에 걸친 의미 있는 보간을 지원함을 보여준다.
임베딩이 피치와 음색을 어떻게 인코딩하는지 및 조건화가 표현에 어떤 영향을 미치는지 탐구한다.

제안 방법

시간적 인코더 설계: 시간 축에 걸친 임베딩 Z를 생성하는 30-계층 잔차 확장된 합성곱 네트워크.
임베드된 Z에 조건화된 WaveNet 디코더를 설계하여 각 층을 Z의 투영으로 바이어스하고 오디오 속도로 시계열 업샘플링한다.
출력 샘플마다 Z로 조건화된 자기회귀 생성과 함께 mu-law 8비트 양자화를 사용하여 학습한다.
스펙트로그램 표현으로 학습된 컨볼루셔널 스펙트럴 자동인코더-baseline과 비교한다.
데이터셋으로 NSynth를 사용: 약 306k 음표, 각 음 4초, 16 kHz, 약 1000개 악기.

실험 결과

연구 질문

RQ1WaveNet 스타일 자동인코더가 오디오 합성을 위해 외부 조건 없이 장기 시간적 구조를 학습할 수 있는가?
RQ2학습된 임베딩이 음색과 다이내믹스를 포착하여 악기 간 보간이 현실적인 소리를 내는가?
RQ3재구성 품질 및 지각적 충실도 측면에서 WaveNet 자동인코더가 스펙트럴 자동인코더 베이스라인과 어떻게 비교되는가?
RQ4피치 조건화가 학습된 임베딩 Z에서 피치를 음색에서 어느 정도 해방시키는가?
RQ5훈련 맥락을 넘어선 시간 임베딩의 특성과 일반화 능력은 어떠한가?

주요 결과

모델	피치 정확도	품질 정확도
Original Audio	91.6%	90.1%
WaveNet Recon	79.6%	88.9%
Baseline Recon	46.9%	85.2%

WaveNet 자동인코더는 재구성 작업에서 스펙트럴 자동인코더 베이스라인보다 더 높은 지각적 및 정성적 충실도를 달성한다.
임베딩으로 학습된 분류기는 WaveNet 재구성에서 피치 및 품질 예측 정확도가 베 baseline 재구성보다 더 높아 음색과 피치 신호의 보존이 더 잘 나타남을 보인다.
임베딩은 악기 간 음색/다이내믹스 보간을 의미 있게 지원하여 단순한 중첩이 아니라 지각적으로 일관된 혼합을 생성한다.
훈련 중 피치 조건화는 피치와 음색의 분리를 다양한 정도로 이끈다. 임베딩 크기가 클수록 덜 분리되는 경향이 있다.
시간 임베딩은 드라이빙-함수와 유사한 동작을 나타내어 훈련 중에 본 것보다 더 긴 음표 시퀀스에 일반화할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.