QUICK REVIEW

[논문 리뷰] End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization

Jaeyoung Kim, Mostafa El‐Khamy|arXiv (Cornell University)|2019. 01. 26.

Speech and Audio Processing참고 문헌 25인용 수 24

한 줄 요약

이 논문은 STFT 기반 수정이 ISTFT 이후에 완벽하게 복원될 수 없음을 방지하기 위해 스펙트럼 불일치 문제를 피하기 위해 시간 도메인 신호에서 훈련한 후 ISTFT를 거쳐 복원된 신호를 사용하는 종단 간 다중 작업 정화 프레임워크를 제안한다. 이는 SDR와 PESQ와 같은 청각적 지표를 직접 최적화하기 위한 새로운 SDR 및 PESQ 손실 함수를 도입하여 기존의 스펙트럼 기반 방법과 생성 모델을 모두 능가하는 유의미한 성능 향상을 달성한다.

ABSTRACT

Supervised learning based on a deep neural network recently has achieved substantial improvement on speech enhancement. Denoising networks learn mapping from noisy speech to clean one directly, or to a spectrum mask which is the ratio between clean and noisy spectra. In either case, the network is optimized by minimizing mean square error (MSE) between ground-truth labels and time-domain or spectrum output. However, existing schemes have either of two critical issues: spectrum and metric mismatches. The spectrum mismatch is a well known issue that any spectrum modification after short-time Fourier transform (STFT), in general, cannot be fully recovered after inverse short-time Fourier transform (ISTFT). The metric mismatch is that a conventional MSE metric is sub-optimal to maximize our target metrics, signal-to-distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ). This paper presents a new end-to-end denoising framework with the goal of joint SDR and PESQ optimization. First, the network optimization is performed on the time-domain signals after ISTFT to avoid spectrum mismatch. Second, two loss functions which have improved correlations with SDR and PESQ metrics are proposed to minimize metric mismatch. The experimental result showed that the proposed denoising scheme significantly improved both SDR and PESQ performance over the existing methods.

연구 동기 및 목표

STFT 기반 수정이 ISTFT 이후에 완전히 복원될 수 없는 스펙트럼 불일치 문제를 해결한다.
MSE 손실을 SDR 및 PESQ 기반의 손실 함수로 대체하여 청각적 음성 품질 지표와 더 잘 일치하는 메트릭 불일치 문제를 해결한다.
훈련과 평가 간 일관성을 확보하기 위해 ISTFT 후 복원된 시간 도메인 신호에서 최적화하는 시간 도메인 프레임워크를 개발한다.
SDR와 PESQ를 동시에 최적화하여 전반적인 음성 품질과 이해도를 향상시킨다.
기존의 감독 학습 및 생성 모델에 비해 표준 벤치마크에서 뛰어난 성능을 입증한다.

제안 방법

마스크 예측 후 ISTFT를 통해 복원된 시간 도메인 신호에서 정화 네트워크를 훈련하여 스펙트럼 불일치를 방지한다.
암호화 스케일에 민감하지 않은 SDR 손실 함수를 정의하여 SDR 지표의 진폭 스케일링에 대한 강건성을 반영한다.
최적화를 위해 대칭적 및 비대칭적 교란을 근사화하여 PESQ 지표를 미분 가능한 손실 함수로 재구성한다.
SDR 및 PESQ 손실 함수를 결합하여 다중 작업 학습 목표를 설정하여 두 지표를 동시에 최적화한다.
두 단계의 STFT 프로세스를 적용: 하나는 마스크 추정을 위한 것이고, 다른 하나는 복원된 시간 도메인 신호에서 PESQ 손실을 계산하기 위한 것이다.
훈련 중에 반복적인 Griffin-Lim을 적용하여 위상 추정을 개선하지만, 단일 반복이 단일 소스 정화 설정에서 최적임을 확인했다.

실험 결과

연구 질문

RQ1ISTFT 후 시간 도메인 신호에서 훈련하면 STFT 기반 음성 정화에서 스펙트럼 불일치 문제가 해결되는가?
RQ2SDR와 PESQ는 종단 간 훈련에서 미분 가능한 손실 함수로 효과적으로 사용될 수 있는가?
RQ3SDR와 PESQ를 동시에 최적화하면 MSE 또는 개별 지표를 최적화하는 것보다 성능이 향상되는가?
RQ4손실 기반 훈련 방식은 GAN과 같은 생성 모델과 비교해 목적론적 음성 품질 지표 측면에서 어떻게 성능을 내는가?
RQ5단일 소스 정화 설정에서 훈련 시 Griffin-Lim 반복의 최적 수는 얼마인가?

주요 결과

제안된 SDR-PESQ 공동 손실 함수는 VoiceBank-DEMAND 코퍼스에서 PESQ 점수 3.01을 기록하여 SEGAN, TF-GAN, DCUnet-20를 포함한 모든 비교 생성 모델을 능가했다.
동일한 코퍼스에서 SDR는 10.44 dB를 기록하여 이어지는 최고 성능 모델인 DCUnet-20(9.96 dB)를 크게 앞서며 MSE 기반 기준 모델 대비 강력한 성능 향상을 보였다.
PESQ 손실 함수는 효과적인 정규화 기법으로 작용하여 L1 또는 L2 정규화보다 더 나은 일반화 성능을 보였다.
반복적인 Griffin-Lim은 한 번의 반복을 초과해 성능 향상을 이끌지 못했으며, 단일 단계 복원이 가장 높은 SDR(12.59 dB)와 PESQ(1.953) 점수를 기록했다.
공동 SDR-PESQ 손실은 가중 SDR 손실 기반 베이스라인(WSDR)보다 PESQ 및 SSNR 측면에서 뛰어난 성능을 보였으며, 다중 작업 메트릭 최적화의 유용성을 확인했다.
이 프레임워크는 목적론적 지표와 청각적 품질 측정치(CSIG, CBAK, COVL) 모두에서 최신 기술 수준의 성능을 달성하여 강건성과 일반화 능력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.