QUICK REVIEW

[논문 리뷰] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

Kundan Kumar, Rithesh Kumar|arXiv (Cornell University)|2019. 10. 08.

Speech and Audio Processing인용 수 598

한 줄 요약

MelGAN은 경량의 비자회귀 GAN을 트레이닝하여 mel-spectrogram을 원시 오디오로 역변환하며 품질이 높고 추론이 빠르며, 화자 및 도메인에 걸쳐 일반화됩니다.

ABSTRACT

Previous works (Donahue et al., 2018a; Engel et al., 2019a) have found that generating coherent raw audio waveforms with GANs is challenging. In this paper, we show that it is possible to train GANs reliably to generate high quality coherent waveforms by introducing a set of architectural changes and simple training techniques. Subjective evaluation metric (Mean Opinion Score, or MOS) shows the effectiveness of the proposed approach for high quality mel-spectrogram inversion. To establish the generality of the proposed techniques, we show qualitative results of our model in speech synthesis, music domain translation and unconditional music synthesis. We evaluate the various components of the model through ablation studies and suggest a set of guidelines to design general purpose discriminators and generators for conditional sequence synthesis tasks. Our model is non-autoregressive, fully convolutional, with significantly fewer parameters than competing models and generalizes to unseen speakers for mel-spectrogram inversion. Our pytorch implementation runs at more than 100x faster than realtime on GTX 1080Ti GPU and more than 2x faster than real-time on CPU, without any hardware specific optimization tricks.

연구 동기 및 목표

GAN으로 일관된 원시 오디오를 생성하는 도전 과제를 제기한다.
비자회귀적이며 완전 컨볼루션형 제너레이터를 mel-spectrogram 역변환에 제안한다.
힌지 손실과 특징 매칭을 갖춘 다중 규모의 윈도우 기반 판별기를 도입한다.
기저대비 파라미터 수가 적고 CPU/GPU 추론이 빠른 등 효율성을 보인다.
보지 못한 화자에 대한 일반화 및 음성, 음악 번역, 무조건 합성 등 응용에의 일반화를 보여준다.

제안 방법

Generator: mel-spectrogram에서 waveform으로의 완전 컨볼루션 업샘플링으로 확장하고, checkerboard artifacts를 피하기 위해 확장에 주의한다.
Normalization: 훈련 안정화를 위해 모든 제너레이터 계층에 가중치 정규화를 적용하고, 인스턴스 또는 스펙트럴 정규화는 피한다.
Discriminator: 큰 수용영역을 가지는 원시 오디오 스케일, 1/2, 1/4 오디오 스케일에서 작동하는 다중 스케일 윈도우 기반 판별기를 사용한다.
Training objective: 힌지 손실 GAN 목표와 판별기 계층 전체에 걸친 특징 매칭 손실(LFM); 제너레이터는 적대적 손실과 가중된 특징 매칭의 합(lambda=10)을 최적화한다.
Architecture considerations: 확장된 컨볼루션을 통한 장기 시간 의존성에 대한 귀납 바이어스; 커널/스트라이드 선택으로 checkerboard artefacts 제어; 전역 노이즈 벡터 입력 없음.
Evaluation: mel-spectrogram 역변환, 엔드투엔드 TTS, 음악 번역 및 VQ-VAE 맥락에서 비자회귀 확장의 MOS 기반 청취 테스트.

실험 결과

연구 질문

RQ1비자회귀적이고 완전 컨볼루션형 GAN이 mel-spectrogram으로부터 고품질의 원시 오디오를 신뢰성 있게 합성할 수 있는가?
RQ2다중 스케일 윈도우 기반의 판별기가 오디오 패치 간의 청취 품질과 일관성을 향상시키는가?
RQ3MOS에서 MelGAN은 자동회귀 보코더 및 다른 비자회귀 방식과 어떻게 비교되는가?
RQ4보지 못한 화자에 대해 일반화할 수 있으며 엔드투엔드 TTS 및 음악 번역 파이프라인에 통합될 수 있는가?

주요 결과

모델	MOS	95% 신뢰구간
Griffin Lim	1.57	± 0.04
WaveGlow	4.11	± 0.05
WaveNet	4.05	± 0.05
MelGAN	3.61	± 0.06
Original	4.52	± 0.04

MelGAN은 mel-spectrogram 역변환 및 엔드투엔드 TTS에서 WaveGlow 및 WaveNet에 비견될 만한 MOS 점수를 달성한다.
모델은 경량(4.26M 파라미터)이며 CPU/GPU에서 50-2600 kHz 추론 속도를 달성하고 베이스라인보다 속도 면에서 우수하다.
다중 스케일 윈도우 기반 판별기와 특징 매칭은 오디오 품질에 결정적이며, 이를 제거하면 MOS가 저하된다.
다중 화자 데이터로 학습될 때 MelGAN은 보지 못한 화자에 일반화하며 화자에 무관한 mel-to-waveform 매핑을 나타낸다.
MelGAN을 활용한 엔드투엔드 TTS(Text2mel + MelGAN)는 Griffin-Lim과 비슷하거나 더 나은 MOS를 보이며 WaveGlow 기반 베이스라인과도 경쟁력 있다; 원래의 고품질 레퍼런스가 여전히 우수하다.
MelGAN은 음악 번역 및 VQ-VAE 맥락에서 자기회귀 디코더를 대체하여 상당한 속도 향상을 달성할 수 있다(예: GPU에서 ~0.16초의 오디오를 1초로).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.