QUICK REVIEW

[논문 리뷰] Efficient Neural Audio Synthesis

Nal Kalchbrenner, Erich Elsen|arXiv (Cornell University)|2018. 02. 23.

Music and Audio Processing참고 문헌 20인용 수 75

한 줄 요약

WaveRNN 소개, 24 kHz 16-bit 오디오를 위한 경량 순환 모델로, 이중 소프트맥스 출력, 희소성, 서브스케일 배치로 실시간 또는 실시간보다 빠른 합성을 고충실도로 달성한다.

ABSTRACT

Sequential models achieve state-of-the-art results in audio, visual and textual domains with respect to both estimating the data distribution and generating high-quality samples. Efficient sampling for this class of models has however remained an elusive problem. With a focus on text-to-speech synthesis, we describe a set of general techniques for reducing sampling time while maintaining high output quality. We first describe a single-layer recurrent neural network, the WaveRNN, with a dual softmax layer that matches the quality of the state-of-the-art WaveNet model. The compact form of the network makes it possible to generate 24kHz 16-bit audio 4x faster than real time on a GPU. Second, we apply a weight pruning technique to reduce the number of weights in the WaveRNN. We find that, for a constant number of parameters, large sparse networks perform better than small dense networks and this relationship holds for sparsity levels beyond 96%. The small number of weights in a Sparse WaveRNN makes it possible to sample high-fidelity audio on a mobile CPU in real time. Finally, we propose a new generation scheme based on subscaling that folds a long sequence into a batch of shorter sequences and allows one to generate multiple samples at once. The Subscale WaveRNN produces 16 samples per step without loss of quality and offers an orthogonal method for increasing sampling efficiency.

연구 동기 및 목표

Quality를 희생하지 않고 연속 신경 오디오 모델의 샘플링 시간을 줄인다.
효율적인 이중 소프트맥스 출력을 갖춘 단일 계층 RNN인 WaveRNN을 개발한다.
실시간 또는 기기 내 합성을 가능하게 하기 위해 가중치 가지치기 및 구조적 희소성을 탐구한다.
처리량 증대를 위해 다중 샘플을 배치 생성하는 서브스케일 샘플링을 도입한다.

제안 방법

WaveRNN을 이중 소프트맥스와 함께 16-bit 오디오 샘플을 예측하는 단일 계층 RNN으로 제안한다.
가중치 가지치를 적용하여 Sparse WaveRNN를 만들고 다양한 희소성 패턴(예: 4x4, 16x1 블록)을 평가한다.
오버헤드를 최소화하고 GPU에서 실시간 샘플링을 달성하기 위해 커스텀 GPU 커널을 구현한다.
Long 시퀀스를 짧은 시퀀스 배치로 접어들고 단계당 여러 샘플을 생성하기 위해 Subscale WaveRNN를 도입한다.
비트-당-스텝 생성을 증가시키기 위해 Subscale Fusion을 실험한다.
NLL, MOS, 및 A/B 테스트로 24 kHz 16-bit 음성의 벤치마크를 수행한다.

실험 결과

연구 질문

RQ1이중 소프트맥스가 있는 컴팩트한 RNN이 16-bit 오디오에 대해 WaveNet 품질에 부합할 수 있는가?
RQ2구조적 희소성이 고정된 매개변수 예산에서 합성 품질에 어떤 영향을 미치는가?
RQ3서브스케일 배치가 품질을 보존하면서 실시간 또는 더 빠른 샘플링을 제공할 수 있는가?
RQ4희소 WaveRNN의 모바일 CPU에서의 샘플링 실용적 이익은 무엇인가?
RQ5서브스케일, 융합 서브스케일 등 다양한 생성 체계가 처리량과 품질에서 어떻게 비교되는가?

주요 결과

WaveRNN (896 units) 은 대형 WaveNet과 비교 가능한 NLL, 기초와 유사한 MOS를 보이며 4× 실시간 GPU 합성(96k 샘플/초) 대비 이점을 보인다.
높은 희소도(96%를 초과하는 희소성)를 가진 Sparse WaveRNN은 동일 매개변수 수에서 작은 밀집 네트워크보다 더 나은 품질을 제공하고 모바일 CPU에서 실시간으로 실행될 수 있다.
B=16인 Subscale WaveRNN은 단계당 16개의 샘플을 손실 없이 얻고 배치 샘플링으로 처리량 이점을 가능하게 한다.
GPU에서 단일 지속 WaveRNN 커널은 96,000 샘플/초(WaveRNN-896)로, WaveNet 기준선은 8,000 샘플/초이다.
일반적인 모바일 CPU에서 실시간 온-디바이스 합성을 보이는 Sparse WaveRNN 벤치마크는 95% 희소성과 4x4 또는 16x1 블록 구조에서 가능하다.
융합 서브스케일 WaveRNN은 GPUs에서 한 단계당 32비트를 생성할 때 10× 실시간에 도달할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.