QUICK REVIEW

[논문 리뷰] WaveNet: A Generative Model for Raw Audio

Aäron van den Oord, Sander Dieleman|arXiv (Cornell University)|2016. 09. 12.

Music and Audio Processing인용 수 3,585

한 줄 요약

WaveNet은 dilated causal convolutions를 이용해 원시 오디오 파형을 엔드-투-엔드로 생성하는 완전 확률적 자기회귀 모델로, TTS에서의 자연스러움이 최첨단에 있으며 음악 및 음성 인식에서도 유망한 결과를 보입니다.

ABSTRACT

This paper introduces WaveNet, a deep neural network for generating raw audio waveforms. The model is fully probabilistic and autoregressive, with the predictive distribution for each audio sample conditioned on all previous ones; nonetheless we show that it can be efficiently trained on data with tens of thousands of samples per second of audio. When applied to text-to-speech, it yields state-of-the-art performance, with human listeners rating it as significantly more natural sounding than the best parametric and concatenative systems for both English and Mandarin. A single WaveNet can capture the characteristics of many different speakers with equal fidelity, and can switch between them by conditioning on the speaker identity. When trained to model music, we find that it generates novel and often highly realistic musical fragments. We also show that it can be employed as a discriminative model, returning promising results for phoneme recognition.

연구 동기 및 목표

원시 오디오 파형을 엔드-투-엔드로 생성하는 신경망을 시연한다.
오디오의 장기 시점 의존성을 포착하기 위해 dilated causal convolution 구조를 개발한다.
발화자 아이덴티티에 조건부를 두면 단일 모델로 다발 화자 생성을 가능하게 한다.
WaveNet을 문자-음성 합성, 다중 화자 음성 생성 및 음악 모델링에 대해 평가하고, 음성 인식과 같은 판별적 용도도 탐구한다.]
method:[

제안 방법

공동 파형 확률을 p(x_t | x_1,...,x_{t-1})의 곱으로 모델링한다.
재발 신경망 없이도 매우 큰 수용 영역을 달성하기 위해 지연이 있는 인과 합성을 사용한다.
μ-law를 통해 오디오를 양자화하고 256 값의 softmax를 사용하여 조건부 다음 샘플 분포를 모델링한다.
깊은 아키텍처를 위해 게이트 활성화 단위와 잔차/스킵 연결을 도입한다.
생성을 제어하기 위해 전역 및 지역 조건부를 지원한다(예: 화자 아이덴티티, 언어적 특징).
장거리 의존성과 이질적 시계열을 관리하기 위해 컨텍스트 모듈을 옵션으로 스택한다.

실험 결과

연구 질문

RQ1완전 확률적 자기회귀 모델이 파형 수준에서 직접 고충실도 원시 오디오를 생성할 수 있는가?
RQ2지연된 인과 합성이 RNN 없이도 장거리 오디오 의존성을 모델링할 만큼 충분한 수용 영역을 제공하는가?
RQ3단일 WaveNet 모델이 다중 화자를 포착할 수 있으며, 조건부가 음성 특성을 제어할 수 있는가?
RQ4전통적인 기준선과 비교해 WaveNet이 문자-음성 합성에서 어떤 성능을 보이며 음악을 모델링하고 음성 인식 작업을 지원할 수 있는가?

주요 결과

WaveNet은 영어와 만다린어에서 텍스트-음성 합성의 주관적 자연스러움에서 최첨단을 달성한다.
발화자 아이덴티티 조건부가 있는 단일 WaveNet이 다중 화자를 모델링할 수 있다.
지연된 인과 합성은 기하급수적으로 증가하는 수용 영역을 제공하여 장거리 의존성 모델링을 가능하게 한다.
언어학적 특징과 F0로 조건화된 WaveNet은 MOS 테스트에서統계적 파람메트릭 및 연결식 기준선보다 우수하게 나타난다.
TIMIT에서 프레임 분류를 위한 보조 손실을 가진 WaveNet은 18.8%의 음소 오류율을 달성하며 원시 오디오 판별 모델과 경쟁력이 있다.
조건부 WaveNet은 연주적 품질의 음악 조각을 생성할 수 있으며 글로벌/로컬 조건부는 출력 속성 제어를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.