Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Objective Learning and Mask-Based Post-Processing for Deep Neural Network Based Speech Enhancement

Yong Xu, Jun Du|arXiv (Cornell University)|2017. 03. 21.
Speech and Audio Processing참고 문헌 29인용 수 32
한 줄 요약

이 논문은 음성 품질을 향상시키기 위해 청소된 로그파wer 스펙트럼(LPS), 멜주파수 cepstral 계수(MFCCs), 이상 이진 마스크(IBM)를 동시에 최적화하는 다목적 딥러닝 프레임워크를 제안한다. 보조 목표를 손실 함수에 통합함으로써 모델은 더 나은 LPS 추정을 달성하고 IBM 기반 후처리를 가능하게 하여 저SNR 조건에서 특히 1.5 dB의 SSNR 향상과 PESQ/STOI 점수 향상을 이룬다.

ABSTRACT

We propose a multi-objective framework to learn both secondary targets not directly related to the intended task of speech enhancement (SE) and the primary target of the clean log-power spectra (LPS) features to be used directly for constructing the enhanced speech signals. In deep neural network (DNN) based SE we introduce an auxiliary structure to learn secondary continuous features, such as mel-frequency cepstral coefficients (MFCCs), and categorical information, such as the ideal binary mask (IBM), and integrate it into the original DNN architecture for joint optimization of all the parameters. This joint estimation scheme imposes additional constraints not available in the direct prediction of LPS, and potentially improves the learning of the primary target. Furthermore, the learned secondary information as a byproduct can be used for other purposes, e.g., the IBM-based post-processing in this work. A series of experiments show that joint LPS and MFCC learning improves the SE performance, and IBM-based post-processing further enhances listening quality of the reconstructed speech.

연구 동기 및 목표

  • 청소된 LPS 예측을 초과하는 보조 목표를 통합함으로써 DNN 기반 음성 강화의 향상을 도모하기 위해.
  • 기존 DNN가 LPS에 대한 평균 제곱오차만 최적화함으로써 음성 왜곡 또는 과도/과소 추정이 발생할 수 있는 한계를 해결하기 위해.
  • 보조 연속형(MFCC) 및 이산형(IBM) 목표가 주요 LPS 추정 및 청각적 품질 향상에 기여하는지 탐색하기 위해.
  • 특히 고SNR 영역에서 음성 왜곡을 줄이는 데 효과적인 IBM 기반 후처리의 효과를 평가하기 위해.
  • LPS, MFCC, IBM의 공동 학습이 더 뛰어난 객관적 및 주관적 음성 품질 지표를 도출하는지 입증하기 위해.

제안 방법

  • 다목적 손실 함수는 LPS 예측 오차, MFCC 예측 오차, IBM 분류 오차를 조합하여 DNN 파라미터를 공동 최적화한다.
  • MFCC 및 IBM을 위한 보조 출력 헤드를 DNN 아키텍처에 추가함으로써 공유 특징 표현을 통한 엔드 투 엔드 학습을 가능하게 한다.
  • IBM은 청소된 스펙트럼과 노이즈가 섞인 스펙트럼에서 유도된 시간-주파수 단위에서 음성 또는 노이즈가 지배적인지 나타내는 이진 마스크이다.
  • 후처리 단계에서는 예측된 IBM을 DNN에 의해 추정된 LPS에 적용하여 스펙트럼 추정을 정밀화하고 과도/과소 추정을 줄인다.
  • 입력 및 출력 특징의 정규화를 전역 평균과 분산을 사용하여 수행함으로써 학습 안정성과 일반화 능력을 향상시킨다.
  • 프레임워크는 LPS 및 MFCC에 대해 평균 제곱오차(MSE), IBM에 대해 교차 엔트로피를 사용하며, 초모수에 의해 가중된 복합 손실 함수로 학습된다.

실험 결과

연구 질문

  • RQ1MFCC 및 IBM의 공동 학습이 DNN 기반 음성 강화에서 LPS 추정 정확도를 향상시키는가?
  • RQ2학습 목표에 이산형 정보(IBM)를 통합함으로써 일반화 능력 향상과 음성 왜곡 감소가 이루어지는가?
  • RQ3IBM 기반 후처리가 직접 DNN 출력 대비 SSNR 및 PESQ와 같은 객관적 지표에서 얼마나 향상시키는가?
  • RQ4MFCC + IBM의 병합 보조 목표가 개별 또는 기준 DNN 접근 방식에 비해 음성 품질 및 이해도 측면에서 어떻게 비교되는가?
  • RQ5다목적 접근 방식이 다양한 노이즈 환경과 SNR 수준에서 강건한가?

주요 결과

  • LPS 및 IBM의 공동 예측은 SNR=0 dB에서 SSNR을 -0.084 dB에서 0.251 dB로 향상시켜 기존 DNN 기반 기준보다 뚜렷한 향상을 보였다.
  • IBM 기반 후처리만으로도 SNR=20 dB에서 SSNR이 3.814 dB 향상되어 잔여 노이즈 억제와 음성 왜곡 감소를 강력하게 확인했다.
  • MFCC+IBM+후처리(PP) 시스템은 기준 대비 평균 SSNR을 3.664 dB에서 5.194 dB로 향상시켜 다목적 학습과 후처리의 누적 효과를 입증했다.
  • PESQ는 SNR=-5 dB에서 0.626 점 향상되었고, 모든 SNR에서 STOI는 0.03 향상되어 청각적 품질 및 이해도 향상의 상당한 성과를 보였다.
  • 제안된 MFCC+IBM+PP 시스템은 모든 SNR 수준에서 LogMMSE를 초월했으며, 특히 저SNR에서 STOI 0.163점, PESQ 0.626점의 향상을 보였다.
  • 스펙트로그램 시각화 결과, 특히 고SNR 영역에서 노이즈 감소와 자음 영역의 음성 왜곡 감소가 확인되어 IBM 후처리의 효과성을 검증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.