QUICK REVIEW

[논문 리뷰] MelNet: A Generative Model for Audio in the Frequency Domain

Sean Vasquez, Mike Lewis|arXiv (Cornell University)|2019. 06. 04.

Music and Audio Processing참고 문헌 50인용 수 111

한 줄 요약

MelNet은 고해상도 스펙트로그램을 다중 스케일의 autoregressive 2D 시-주파수 모델로 모델링하여 고충실도 오디오를 생성하고, 무조건적 음성/음악 생성 및 엔드투엔드 텍스트-음성 합성을 가능하게 합니다. 이는 이전의 시간도메인 모델보다 긴 범위의 구조와 충실도를 포착하는 데 우수합니다.

ABSTRACT

Capturing high-level structure in audio waveforms is challenging because a single second of audio spans tens of thousands of timesteps. While long-range dependencies are difficult to model directly in the time domain, we show that they can be more tractably modelled in two-dimensional time-frequency representations such as spectrograms. By leveraging this representational advantage, in conjunction with a highly expressive probabilistic model and a multiscale generation procedure, we design a model capable of generating high-fidelity audio samples which capture structure at timescales that time-domain models have yet to achieve. We apply our model to a variety of audio generation tasks, including unconditional speech generation, music generation, and text-to-speech synthesis---showing improvements over previous approaches in both density estimates and human judgments.

연구 동기 및 목표

시간 도메인 파형보다 더 다루기 쉽게 장기적 의존성을 포착하기 위해 주파수 영역에서 오디오를 모델링하는 동기를 제시한다.
정보 손실과 과도한 평활화를 줄이기 위해 고해상도 스펙트로그램에 대해 표현력 있는 자기회귀 모델을 개발한다.
오디오의 국부적 디테일과 전역 구조를 함께 포착하기 위한 다중 스케일(대-소) 생성 절차를 제안한다.
무조건적 음성, 음악 생성, 그리고 엔드투엔드 텍스트-음성 합성에 대한 광범위한 적용 가능성을 보여준다.

제안 방법

스펙트로그램 요소별로 가우시안 혼합 모델을 사용하는 조건부 분포의 곱으로 스펙트로그램을 모델링한다.
앞선 컨텍스트에 조건화된 신경망으로 각 조건부 분포를 매개변수화한다.
두 스택 자기회귀 네트워크를 사용한다: time-delayed 스택(이전 프레임의 정보를 캡처)과 frequency-delayed 스택(프레임 내 이력 및 time-delayed 스택의 출력을 캡처).
텍스트/발화자 입력에 대한 중앙 집중 스택과 컨디셔닝 메커니즘을 선택적으로 포함한다.
스펙트로그램을 계층(x1,…,xG)으로 나누고 대-세밀한 순서로 생성하는 다중 스케일 생성 방법을 적용하며, 계층 간 조건 부여를 교대로 수행한다.
학습은 재귀적 계층 분할(시간 또는 주파수에 따라 분할)과 계층별 네트워크를 사용하고, 샘플링은 생성된 계층을 엮어 전체 스펙트로그램을 형성한다.
스펙트로그램 프레임과 문자 시퀀스 간의 학습된 정렬(위치 기반 어텐션)을 통해 엔드투엔드 TTS를 위한 일괄 조건화를 수행한다.

실험 결과

연구 질문

RQ1완전한 자기회귀 2D 시-주파수 모델로 고해상도 스펙트로그램을 모델링하면 시간도메인 모델이 달성하는 것 이상으로 장기적 음향 구조를 포착할 수 있는가?
RQ2다중 스케일(대-세밀한) 생성이 단일 스케일 자기회귀 스펙트로그램 모델에 비해 충실도를 향상시키고 과도한 평활화를 줄이는가?
RQ3MelNet이 무조건적 음성, 음악 생성, 엔드투엔드 텍스트-음성 합성에 광범위하게 적용 가능한가, 그리고 밀도 추정 및 인간 평가에서 파형 기반 baselines와의 성능은 어떠한가?
RQ4이 프레임워크에서 스펙트로그램과 텍스트 간의 정렬을 학습하여 엔드투엔드 TTS를 달성할 수 있는가?

주요 결과

MelNet은 긴 샘플에서 사람의 평가에서 WaveNet 베이스라인보다 음성 및 음악에서 일관된 장기 구조를 생성하는 데 더 우수하다.
무조건적 작업에서 MelNet은 단일 화자, 다중 화자, 피아노 음악 데이터 전반에 걸쳐 일관된 프로소디와 음성 특성을 가진 샘플을 생성한다.
엔드투엔드 TTS 설정에서 MelNet은 다중 화자 합성을 수행하고 텍스트 및 화자 입력에 조건화된 다모드 보컬 표현을 포착할 수 있다.
정성적 결과는 MelNet이 프라이밍된 시퀀스에서도 화자 특성을 유지하고 VoxCeleb2 데이터 내에서 말하기 스타일과 노이즈 조건의 변화를 생성할 수 있음을 보여준다.
다중 스케일 생성 절차는 전역 구조를 보존하면서 고해상도 스펙트로그램을 상세한 국부 충실도와 함께 생성할 수 있게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.