QUICK REVIEW

[논문 리뷰] Exploring the Best Loss Function for DNN-Based Low-latency Speech Enhancement with Temporal Convolutional Networks

Yuichiro Koyama, Tyler Vuong|arXiv (Cornell University)|2020. 05. 23.

Speech and Audio Processing참고 문헌 35인용 수 43

한 줄 요약

논문은 두 데이터셋에서 저지연 음성 향상을 위해 STFT-TCN과 Conv-TasNet 접근법을 평가하며, 작은 데이터에서 PASE 기반 손실이 성능을 향상시키고, SNR 손실이 지각적 지표에서 SI-SNR보다 우수할 수 있음을 시사한다. 또한 DNS Challenge 제출과 낮은 지연 설정을 제공한다.

ABSTRACT

Recently, deep neural networks (DNNs) have been successfully used for speech enhancement, and DNN-based speech enhancement is becoming an attractive research area. While time-frequency masking based on the short-time Fourier transform (STFT) has been widely used for DNN-based speech enhancement over the last years, time domain methods such as the time-domain audio separation network (TasNet) have also been proposed. The most suitable method depends on the scale of the dataset and the type of task. In this paper, we explore the best speech enhancement algorithm on two different datasets. We propose a STFT-based method and a loss function using problem-agnostic speech encoder (PASE) features to improve subjective quality for the smaller dataset. Our proposed methods are effective on the Voice Bank + DEMAND dataset and compare favorably to other state-of-the-art methods. We also implement a low-latency version of TasNet, which we submitted to the DNS Challenge and made public by open-sourcing it. Our model achieves excellent performance on the DNS Challenge dataset.

연구 동기 및 목표

작은 데이터 대비 큰 데이터에서 무엇이 더 나은 지각적 품질을 낳는지 시간 영역 대 STFT 기반 접근법 비교를 통해 평가한다.
지각적 음성 품질을 최적화하기 위한 손실 함수(SI-SNR, SNR, PCMSE, PASE 기반) 분석
작은 데이터에서 성능 향상을 위한 고정 인코더/디코더를 갖는 STFT-TCN을 제안한다
TasNet의 저지연 버전을 가능하게 하고, 실시간 가능성과 성능을 평가한다
학습 손실에 PASE 특징을 활용하는 것이 주관적 품질 관련 메트릭을 개선하는지 평가한다

제안 방법

Conv-TasNet의 학습 가능한 인코더/디코더를 고정된 STFT/ISTFT 연산으로 대체하여 STFT-TCN을 도입한다.
마스크 추정 블록에서 시그모이드를 제거하여 마스크가 음수 값을 가질 수 있도록 한다.
제어 가능한 지연(예: 최대 40 ms 선헤드)을 가능하게 하는 혼합 인과/비인과 TCN 구성
손실 함수 비교: SI-SNR, SNR, PCMSE, PASE 특성 MSE와 PCMSE를 결합한 PASEMSE 손실
STFT-TCN의 두 입력 표현(W_SPEC vs W_AP(진폭-위상 형식))을 평가하고 더 나은 것을 선택한다.
인식 가능한 지각 지표를 개선하기 위해 네트워크를 K=2 소스(음성+잡음)로 출력하도록 조정한다.
Voice Bank + DEMAND(VBD) 및 DNS Challenge 데이터셋에서 실험을 수행하고, DNS 확장 전에 VBD에서 제거 실험을 수행한다

실험 결과

연구 질문

RQ1아키텍처 조합(STFT 기반 대 시간영역)과 손실 함수가 작은 데이터 대 큰 데이터에서 지각적 품질에 어떤 차이를 보이는가?
RQ2손실 함수에 PASE 특징을 도입하는 것이 작은 데이터에서 주관적 음성 품질과 상관된 지표를 향상시키는가(PASEMSE)
RQ3DNS Challenge 제약 하에 저지연 STFT-TCN 또는 Conv-TasNet 접근법이 실시간 또는 준실시간 배포에 더 적합한가?
RQ4두 가지 마스크를 학습(K=2)하는 것이 음성 신호만 추정하는(K=1) 것보다 지각 품질을 향상시키는가?
RQ5고정 인코더/디코더를 갖는 STFT-TCN이 완전 학습 가능한 Conv-TasNet과 비교해 표준 지각 지표(PESQ, CSIG, CBAK, COVL)에서 어떤 성능 차이를 보이는가?

주요 결과

VBD 데이터셋에서 STFT-TCN은 PASE 기반 손실로 지각 품질 메트릭에서 높은 성능을 달성한다.
STFT-TCN은 일반적으로 VBD에서 지각 지표 측면에서 Conv-TasNet보다 우수한 반면, 더 큰 DNS 데이터셋에서는 Conv-TasNet이 더 나은 성능을 낼 수 있다.
SNR 손실은 이 실험에서 SI-SNR 손실보다 지각 품질 메트릭에 더 적합하다.
PCMSE는 STFT-TCN의 지각 지표 성능을 향상시키지만 Conv-TasNet에는 해당되지 않는다.
PASEMSE(PASE 특징 손실과 PCMSE의 조합)는 VBD에서 가장 강한 지각 품질 결과를 낸다.
PASE 손실을 갖춘 STFT-TCN은 VBD에서 기존의 여러 방법에 접근하거나 이를 능가하는 경향이 있으며, PHASEN(우리 구현)은 여전히 근소하게 경쟁력 있으며 일부 결과는 하이퍼파라미터에 의존한다.
DNS 데이터셋에서는 SNR 손실을 사용한 Conv-TasNet이 테스트된 구성 중 최고 지각 지표를 달성하고 있으며, 더 큰 데이터셋에서 PASE 기반 손실의 효과는 떨어진다.
비인과 레이어는 짧은 look-ahead(33–40 ms)에서도 유용한 미래 맥락 이득을 제공하며 더 깊은 비인과 구성과도 경쟁력이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.