Skip to main content
QUICK REVIEW

[논문 리뷰] MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement

Szu‐Wei Fu, Cheng Yu|arXiv (Cornell University)|2021. 04. 08.
Speech and Audio Processing참고 문헌 34인용 수 24
한 줄 요약

MetricGAN+는 도메인 특화 지식을 MetricGAN 프레임워크에 통합하여 음성 향상 성능을 햖고, 청각적 품질을 최적화하기 위해 세 가지 새로운 훈련 기법을 사용하였다. VoiceBank-DEMAND 데이터셋에서 PESQ 점수 3.15를 기록하여 원본 MetricGAN 대비 0.3 향상되었고, 최신 기술 수준의 성능을 달성하였다.

ABSTRACT

The discrepancy between the cost function used for training a speech enhancement model and human auditory perception usually makes the quality of enhanced speech unsatisfactory. Objective evaluation metrics which consider human perception can hence serve as a bridge to reduce the gap. Our previously proposed MetricGAN was designed to optimize objective metrics by connecting the metric with a discriminator. Because only the scores of the target evaluation functions are needed during training, the metrics can even be non-differentiable. In this study, we propose a MetricGAN+ in which three training techniques incorporating domain-knowledge of speech processing are proposed. With these techniques, experimental results on the VoiceBank-DEMAND dataset show that MetricGAN+ can increase PESQ score by 0.3 compared to the previous MetricGAN and achieve state-of-the-art results (PESQ score = 3.15).

연구 동기 및 목표

  • 자동 음성 향상 평가 지표와 인간 청각 인식 간 격차를 해소하기 위해.
  • 음성 처리 분야의 도메인 특화 지식을 통합하여 원본 MetricGAN의 성능을 향상시키기 위해.
  • 비미분 가능 목표 평가 지표를 최적화하는 훈련 프레임워크를 개발하기 위해.
  • VoiceBank-DEMAND 데이터셋에서 최신 기술 수준의 음성 향상 품질을 달성하기 위해.
  • 도메인 인식 훈련 기법이 비차별 가능 지표가 없이도 청각적 품질을 향상시킬 수 있음을 입증하기 위해.

제안 방법

  • 음성 향상에서 청각 지표 최적화를 향상시키기 위해 도메인 지식 기반의 세 가지 훈련 기법을 도입하였다.
  • 원본 MetricGAN 프레임워크를 개선하여 훈련 과정에 음성 전용 사전 지식을 통합하였다.
  • 비미분 가능일지라도 평가 지표와 일치하는 판별자 구조를 사용하였다.
  • 훈련 중 평가 함수의 점수를 활용하여 생성자 모델이 청각적으로 우수한 출력을 향해 유도하였다.
  • 조건부 GAN 아키텍처를 활용하여 생성자가 메트릭 피드백 기반으로 노이즈 있는 음성을 향상된 음성으로 매핑하도록 학습하였다.
  • 메트릭 점수를 감독 신호로 포함하는 손실 함수를 최적화하여 인간 인식과의 일치도를 향상시켰다.

실험 결과

연구 질문

  • RQ1도메인 특화 지식이 메트릭 기반 음성 향상 모델의 성능을 향상시킬 수 있는가?
  • RQ2음성 처리 사전 지식을 통합할 경우 비미분 가능 청각 지표 최적화에 어떤 영향을 미치는가?
  • RQ3청각 지표 피드백을 사용해 훈련된 GAN 기반 프레임워크가 최신 기술 수준의 음성 향상 품질을 달성할 수 있는가?
  • RQ4제안된 훈련 기법이 PESQ 및 기타 목표 지표에 어떤 영향을 미치는가?
  • RQ5향상된 훈련 전략은 기준 방법 대비 더 자연스러운 들리게 하는 음성 향상 결과를 도출하는가?

주요 결과

  • MetricGAN+는 VoiceBank-DEMAND 데이터셋에서 PESQ 점수 3.15를 기록하여 원본 MetricGAN 대비 0.3 향상되었다.
  • 모델은 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성하여 이전 방법들을 능가하였다.
  • 제안된 훈련 기법은 비차별 가능 지표가 없이도 청각 품질을 크게 향상시켰다.
  • 평가 지표의 점수를 훈련 신호로 활용하여 비미분 가능 목표 지표를 성공적으로 최적화하였다.
  • 도메인 지식 통합으로 자연스러운 음성 출력이 가능해졌으며, 이는 향상된 PESQ 및 주관적 평가 지표로 확인되었다.
  • VoiceBank-DEMAND 데이터셋의 다양한 노이즈 조건에서 뛰어난 강인성과 일반화 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.