Skip to main content
QUICK REVIEW

[논문 리뷰] MelNet: A Generative Model for Audio in the Frequency Domain

Sean Vasquez, Mike Lewis|arXiv (Cornell University)|2019. 06. 04.
Music and Audio Processing참고 문헌 50인용 수 111
한 줄 요약

MelNet은 고해상도 스펙트로그램을 다중 스케일의 autoregressive 2D 시-주파수 모델로 모델링하여 고충실도 오디오를 생성하고, 무조건적 음성/음악 생성 및 엔드투엔드 텍스트-음성 합성을 가능하게 합니다. 이는 이전의 시간도메인 모델보다 긴 범위의 구조와 충실도를 포착하는 데 우수합니다.

ABSTRACT

Capturing high-level structure in audio waveforms is challenging because a single second of audio spans tens of thousands of timesteps. While long-range dependencies are difficult to model directly in the time domain, we show that they can be more tractably modelled in two-dimensional time-frequency representations such as spectrograms. By leveraging this representational advantage, in conjunction with a highly expressive probabilistic model and a multiscale generation procedure, we design a model capable of generating high-fidelity audio samples which capture structure at timescales that time-domain models have yet to achieve. We apply our model to a variety of audio generation tasks, including unconditional speech generation, music generation, and text-to-speech synthesis---showing improvements over previous approaches in both density estimates and human judgments.

연구 동기 및 목표

  • 시간 도메인 파형보다 더 다루기 쉽게 장기적 의존성을 포착하기 위해 주파수 영역에서 오디오를 모델링하는 동기를 제시한다.
  • 정보 손실과 과도한 평활화를 줄이기 위해 고해상도 스펙트로그램에 대해 표현력 있는 자기회귀 모델을 개발한다.
  • 오디오의 국부적 디테일과 전역 구조를 함께 포착하기 위한 다중 스케일(대-소) 생성 절차를 제안한다.
  • 무조건적 음성, 음악 생성, 그리고 엔드투엔드 텍스트-음성 합성에 대한 광범위한 적용 가능성을 보여준다.

제안 방법

  • 스펙트로그램 요소별로 가우시안 혼합 모델을 사용하는 조건부 분포의 곱으로 스펙트로그램을 모델링한다.
  • 앞선 컨텍스트에 조건화된 신경망으로 각 조건부 분포를 매개변수화한다.
  • 두 스택 자기회귀 네트워크를 사용한다: time-delayed 스택(이전 프레임의 정보를 캡처)과 frequency-delayed 스택(프레임 내 이력 및 time-delayed 스택의 출력을 캡처).
  • 텍스트/발화자 입력에 대한 중앙 집중 스택과 컨디셔닝 메커니즘을 선택적으로 포함한다.
  • 스펙트로그램을 계층(x1,…,xG)으로 나누고 대-세밀한 순서로 생성하는 다중 스케일 생성 방법을 적용하며, 계층 간 조건 부여를 교대로 수행한다.
  • 학습은 재귀적 계층 분할(시간 또는 주파수에 따라 분할)과 계층별 네트워크를 사용하고, 샘플링은 생성된 계층을 엮어 전체 스펙트로그램을 형성한다.
  • 스펙트로그램 프레임과 문자 시퀀스 간의 학습된 정렬(위치 기반 어텐션)을 통해 엔드투엔드 TTS를 위한 일괄 조건화를 수행한다.

실험 결과

연구 질문

  • RQ1완전한 자기회귀 2D 시-주파수 모델로 고해상도 스펙트로그램을 모델링하면 시간도메인 모델이 달성하는 것 이상으로 장기적 음향 구조를 포착할 수 있는가?
  • RQ2다중 스케일(대-세밀한) 생성이 단일 스케일 자기회귀 스펙트로그램 모델에 비해 충실도를 향상시키고 과도한 평활화를 줄이는가?
  • RQ3MelNet이 무조건적 음성, 음악 생성, 엔드투엔드 텍스트-음성 합성에 광범위하게 적용 가능한가, 그리고 밀도 추정 및 인간 평가에서 파형 기반 baselines와의 성능은 어떠한가?
  • RQ4이 프레임워크에서 스펙트로그램과 텍스트 간의 정렬을 학습하여 엔드투엔드 TTS를 달성할 수 있는가?

주요 결과

  • MelNet은 긴 샘플에서 사람의 평가에서 WaveNet 베이스라인보다 음성 및 음악에서 일관된 장기 구조를 생성하는 데 더 우수하다.
  • 무조건적 작업에서 MelNet은 단일 화자, 다중 화자, 피아노 음악 데이터 전반에 걸쳐 일관된 프로소디와 음성 특성을 가진 샘플을 생성한다.
  • 엔드투엔드 TTS 설정에서 MelNet은 다중 화자 합성을 수행하고 텍스트 및 화자 입력에 조건화된 다모드 보컬 표현을 포착할 수 있다.
  • 정성적 결과는 MelNet이 프라이밍된 시퀀스에서도 화자 특성을 유지하고 VoxCeleb2 데이터 내에서 말하기 스타일과 노이즈 조건의 변화를 생성할 수 있음을 보여준다.
  • 다중 스케일 생성 절차는 전역 구조를 보존하면서 고해상도 스펙트로그램을 상세한 국부 충실도와 함께 생성할 수 있게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.