QUICK REVIEW

[논문 리뷰] MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement

Szu‐Wei Fu, Cheng Yu|arXiv (Cornell University)|2021. 04. 08.

Speech and Audio Processing참고 문헌 34인용 수 24

한 줄 요약

MetricGAN+는 도메인 특화 지식을 MetricGAN 프레임워크에 통합하여 음성 향상 성능을 햖고, 청각적 품질을 최적화하기 위해 세 가지 새로운 훈련 기법을 사용하였다. VoiceBank-DEMAND 데이터셋에서 PESQ 점수 3.15를 기록하여 원본 MetricGAN 대비 0.3 향상되었고, 최신 기술 수준의 성능을 달성하였다.

ABSTRACT

The discrepancy between the cost function used for training a speech enhancement model and human auditory perception usually makes the quality of enhanced speech unsatisfactory. Objective evaluation metrics which consider human perception can hence serve as a bridge to reduce the gap. Our previously proposed MetricGAN was designed to optimize objective metrics by connecting the metric with a discriminator. Because only the scores of the target evaluation functions are needed during training, the metrics can even be non-differentiable. In this study, we propose a MetricGAN+ in which three training techniques incorporating domain-knowledge of speech processing are proposed. With these techniques, experimental results on the VoiceBank-DEMAND dataset show that MetricGAN+ can increase PESQ score by 0.3 compared to the previous MetricGAN and achieve state-of-the-art results (PESQ score = 3.15).

연구 동기 및 목표

자동 음성 향상 평가 지표와 인간 청각 인식 간 격차를 해소하기 위해.
음성 처리 분야의 도메인 특화 지식을 통합하여 원본 MetricGAN의 성능을 향상시키기 위해.
비미분 가능 목표 평가 지표를 최적화하는 훈련 프레임워크를 개발하기 위해.
VoiceBank-DEMAND 데이터셋에서 최신 기술 수준의 음성 향상 품질을 달성하기 위해.
도메인 인식 훈련 기법이 비차별 가능 지표가 없이도 청각적 품질을 향상시킬 수 있음을 입증하기 위해.

제안 방법

음성 향상에서 청각 지표 최적화를 향상시키기 위해 도메인 지식 기반의 세 가지 훈련 기법을 도입하였다.
원본 MetricGAN 프레임워크를 개선하여 훈련 과정에 음성 전용 사전 지식을 통합하였다.
비미분 가능일지라도 평가 지표와 일치하는 판별자 구조를 사용하였다.
훈련 중 평가 함수의 점수를 활용하여 생성자 모델이 청각적으로 우수한 출력을 향해 유도하였다.
조건부 GAN 아키텍처를 활용하여 생성자가 메트릭 피드백 기반으로 노이즈 있는 음성을 향상된 음성으로 매핑하도록 학습하였다.
메트릭 점수를 감독 신호로 포함하는 손실 함수를 최적화하여 인간 인식과의 일치도를 향상시켰다.

실험 결과

연구 질문

RQ1도메인 특화 지식이 메트릭 기반 음성 향상 모델의 성능을 향상시킬 수 있는가?
RQ2음성 처리 사전 지식을 통합할 경우 비미분 가능 청각 지표 최적화에 어떤 영향을 미치는가?
RQ3청각 지표 피드백을 사용해 훈련된 GAN 기반 프레임워크가 최신 기술 수준의 음성 향상 품질을 달성할 수 있는가?
RQ4제안된 훈련 기법이 PESQ 및 기타 목표 지표에 어떤 영향을 미치는가?
RQ5향상된 훈련 전략은 기준 방법 대비 더 자연스러운 들리게 하는 음성 향상 결과를 도출하는가?

주요 결과

MetricGAN+는 VoiceBank-DEMAND 데이터셋에서 PESQ 점수 3.15를 기록하여 원본 MetricGAN 대비 0.3 향상되었다.
모델은 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성하여 이전 방법들을 능가하였다.
제안된 훈련 기법은 비차별 가능 지표가 없이도 청각 품질을 크게 향상시켰다.
평가 지표의 점수를 훈련 신호로 활용하여 비미분 가능 목표 지표를 성공적으로 최적화하였다.
도메인 지식 통합으로 자연스러운 음성 출력이 가능해졌으며, 이는 향상된 PESQ 및 주관적 평가 지표로 확인되었다.
VoiceBank-DEMAND 데이터셋의 다양한 노이즈 조건에서 뛰어난 강인성과 일반화 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.