QUICK REVIEW

[논문 리뷰] HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial Networks

Jiaqi Su, Zeyu Jin|arXiv (Cornell University)|2020. 06. 10.

Speech and Audio Processing참고 문헌 41인용 수 19

한 줄 요약

HiFi-GAN은 고음질 음성 향상의 엔드 투 엔드 WaveNet 기반 생성적 적대적 네트워크를 제안하며, 시간 도메인과 시간-주파수 도메인에서 다중 척도 및 다중 도메인 판별기들을 사용하여 깊이 있는 특징 매칭을 통해 청취자적 품질을 향상시킨다. 이는 객관적 평가와 주관적 평가 모두에서 이전 방법들을 크게 능가하는 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Real-world audio recordings are often degraded by factors such as noise, reverberation, and equalization distortion. This paper introduces HiFi-GAN, a deep learning method to transform recorded speech to sound as though it had been recorded in a studio. We use an end-to-end feed-forward WaveNet architecture, trained with multi-scale adversarial discriminators in both the time domain and the time-frequency domain. It relies on the deep feature matching losses of the discriminators to improve the perceptual quality of enhanced speech. The proposed model generalizes well to new speakers, new speech content, and new environments. It significantly outperforms state-of-the-art baseline methods in both objective and subjective experiments.

연구 동기 및 목표

새로운 화자, 음성 내용, 환경에 대해 일반화 가능한 고음질 음성 향상 방법을 개발하는 것.
단일 채널 녹음에서 노이즈, 리버버버레이션, 일치 보정 왜곡의 복합적 과제를 해결하는 것.
깊이 있는 특징 매칭을 통한 인간과 유사한 청취 인식을 통합하여 객관적 지표를 초월한 청취자적 품질 향상.
시간 도메인과 시간-주파수 도메인에서의 다중 척도, 다중 도메인 판별기를 통해 GAN 훈련을 안정화하고 잡음 요소를 줄이는 것.
위상 유도 왜곡을 최소화하기 위해 원시 파형에서 직접 엔드 투 엔드 향상 처리를 수행하는 것.

제안 방법

노이즈가 섞이고 리버버버레이션된 음성을 청소된 파형으로 매핑하기 위해 피드포워드 WaveNet을 생성기로 사용한다.
다양한 시간 해상도에서 원시 파형에서 작동하는 여러 판별기를 도입하여 다중 척도 시간적 구조를 포착한다.
멜 스펙트로그램에서 작동하는 별도의 판별기를 도입하여 시간-주파수 도메인 특징을 모델링한다.
다양한 판별기에서 유도된 깊이 있는 특징 매칭 손실을 적용하여 생성기가 청취자적으로 자연스러운 출력을 향해 유도되도록 한다.
생성적 적대적 손실과 판별기의 중간 특징 맵에서 유도된 인지적 손실을 결합하여 훈련 안정성 향상과 현실감 향상을 도모한다.
WaveNet 이후에 Postnet 모듈을 도입하여 출력을 정밀하게 다듬고 잔여 잡음 요소를 감소시킨다.

실험 결과

연구 질문

RQ1단일 딥러닝 모델이 음성 향상에서 다양한 화자, 음성 내용, 녹음 환경에 효과적으로 일반화할 수 있는가?
RQ2깊이 있는 특징 매칭을 통한 다중 척도, 다중 도메인 적대적 훈련이 표준 GAN과 객관적 지표를 초월해 청취자적 품질을 향상시키는가?
RQ3시간-주파수 도메인 판별기의 통합이 원시 파형 기반 음성 향상의 안정성과 품질에 어떤 영향을 미치는가?
RQ4사전 훈련된 판별기에서 유도된 깊이 있는 특징 매칭이 고정 또는 재학습된 손실 네트워크에 비해 음성 품질 향상에 얼마나 기여하는가?
RQ5강한 리버버버레이션과 노이즈가 존재하는 조건에서 엔드 투 엔드 파형 기반 방법이 스펙트럼 기반 방법을 능가할 수 있는가?

주요 결과

HiFi-GAN은 VCTK 노이즈가 섞인 데이터셋에서 가장 높은 PESQ 점수(2.94)를 기록하여 MetricGAN과 Wave-U-Net을 포함한 모든 기준 모델을 능가했다.
주관적 MOS 테스트에서 HiFi-GAN은 평균 의견 점수를 가장 높게 기록했으며, 이중 비교 테스트에서 90% 이상에서 모든 기준 모델을 앞섰다.
원시 파형과 스펙트로그램 판별기의 조합은 훈련 안정성과 수렴을 크게 향상시켰으며, 스펙트로그램 판별기를 제거할 경우 성능 저하가 발생했다.
HiFi-GAN은 훈련 데이터에 포함되지 않은 화자와 환경에 대해서도 잘 일반화되어 훈련 분포를 초월한 강건성을 보였다.
리버버버레이션 조건에서 스펙트럼 기반 기준 모델보다 성능이 뛰어나, 시간-주파수 표현 학습의 중요성을 입증했다.
Postnet 보정은 성능 향상에 기여했으며, HiFi-GAN + Postnet는 CSIG 점수 4.07을 기록하여 MetricGAN을 제외한 모든 모델 중에서 유일하게 2위를 기록했지만, PESQ와 COVL에서 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.