QUICK REVIEW

[논문 리뷰] Monaural Speech Enhancement using Deep Neural Networks by Maximizing a Short-Time Objective Intelligibility Measure

Morten Kolbæk, Zheng‐Hua Tan|arXiv (Cornell University)|2018. 02. 02.

Speech and Audio Processing참고 문헌 26인용 수 26

한 줄 요약

이 논문은 단일 청취 기반 음성 향상 시스템을 제안하며, 단기 객관적 이해도(Short-Time Objective Intelligibility, STOI) 측정치의 근사치를 최대화하여 직접적으로 음성 이해도를 최적화하는 딥 네ural 네트워크(DNN) 기반 접근법을 사용한다. 이 방법은 엔드 투 엔드 학습을 위해 분석적 기울기를 도출하며, STOI 최적화 DNN가 MSE 기반 기준보다 뚜렷한 이해도 향상을 보이며, 전통적인 DNN 기반 단기 스펙트럼 진폭(STSA) 시스템과 유사한 성능을 보임으로써 STSA-DNN가 이미 이해도 측면에서 최적에 가까운 성능을 낼 수 있음을 시사한다.

ABSTRACT

In this paper we propose a Deep Neural Network (DNN) based Speech Enhancement (SE) system that is designed to maximize an approximation of the Short-Time Objective Intelligibility (STOI) measure. We formalize an approximate-STOI cost function and derive analytical expressions for the gradients required for DNN training and show that these gradients have desirable properties when used together with gradient based optimization techniques. We show through simulation experiments that the proposed SE system achieves large improvements in estimated speech intelligibility, when tested on matched and unmatched natural noise types, at multiple signal-to-noise ratios. Furthermore, we show that the SE system, when trained using an approximate-STOI cost function performs on par with a system trained with a mean square error cost applied to short-time temporal envelopes. Finally, we show that the proposed SE system performs on par with a traditional DNN based Short-Time Spectral Amplitude (STSA) SE system in terms of estimated speech intelligibility. These results are important because they suggest that traditional DNN based STSA SE systems might be optimal in terms of estimated speech intelligibility.

연구 동기 및 목표

객관적 이해도 측정치를 사용하여 직접적으로 음성 이해도를 최적화하는 DNN 기반 음성 향상 시스템을 개발하는 것.
엔드 투 엔드 DNN 학습에 적합한 분석 기울기를 갖춘 근사 STOI 비용 함수를 정식화하는 것.
STOI 최적화 DNN가 전통적인 MSE 기반 DNN보다 음성 이해도 측면에서 뛰어나게 성능을 발휘하는지 평가하는 것.
STOI 최적화 DNN의 성능을 전통적인 DNN 기반 단기 스펙트럼 진폭(STSA) 시스템과 비교하는 것.
직접 STOI를 최적화함으로써 기존 MSE 기반 학습 대비 뚜렷한 성능 향상이 이루어지는지 조사하는 것.

제안 방법

STFT 도메인 내 일분음대 대역의 단기 시간적 에너지의 근사 STOI 비용 함수를 수립한다.
백프로파게이션 기반 DNN 학습에 사용하기 위해 근사 STOI 비용의 분석 기울기를 유도한다.
DNN 아키텍처는 30개의 STFT 프레임을 입력으로 사용하며, 겹치는 프레임에 대한 이득을 추정하고, 출력 이득을 평균화하여 향상된 신호를 복원한다.
유도된 기울기를 사용하여 확률적 경사 하강법을 적용하여 STOI 유사 목적을 최대화하도록 학습한다.
이 방법은 STFT 도메인에서 작동하며, 세기 스펙트럼을 사용하고 노이즈가 있는 입력에 이득 함수를 적용하여 청소된 음성 신호를 추정한다.
다양한 노이즈 유형과 신호 대 잡음비(SNR)에서 STOI 및 ELC(확장된 장기 상관도) 점수를 사용하여 성능을 평가한다.

실험 결과

연구 질문

RQ1STOI 근사치를 최대화하도록 학습된 DNN 기반 음성 향상 시스템이 MSE 기반 기준보다 더 높은 음성 이해도를 달성할 수 있는가?
RQ2근사 STOI 비용 함수에 대한 유도된 분석 기울기가 안정적이고 효과적인 학습을 이끌 수 있는가?
RQ3STOI 최적화 DNN의 성능은 전통적인 DNN 기반 STSA 시스템과 비교해 이해도 측면에서 어떻게 나타나는가?
RQ4일치 및 일치하지 않는 노이즈 조건에서 STOI 최적화와 MSE 최적화 DNN 간에 뚜렷한 성능 격차가 존재하는가?
RQ5직접 STOI를 최적화함으로써 기존 MSE 기반 학습 대비 음성 이해도 측면에서 측정 가능한 성능 향상이 이루어지는가?

주요 결과

제안된 STOI 최적화 DNN 시스템은 일치 및 일치하지 않는 노이즈 유형 전반에서 추정된 음성 이해도(STOI)에 있어 뚜렷한 향상을 보이며, 평균적으로 0.07~0.13 STOI 포인트의 향상을 달성한다.
근사 STOI 비용 함수를 사용해 학습된 시스템은 단기 시간적 에너지에 대해 평균 제곱 오차(MSE) 비용을 사용해 학습된 시스템과 유사한 성능을 보이며, STOI 최적화에 유의미한 이점이 없음을 시사한다.
STOI 최적화 DNN는 전통적인 DNN 기반 STSA 시스템과 유사한 성능을 보이며, BBL 노이즈 조건에서 -5 dB SNR에서 최대 STOI 0.66, 5 dB SNR에서 0.92를 기록한다.
STOI 최적화 시스템과 MSE 최적화 시스템의 이득 벡터 간 상관계수가 높음(r > 0.90)을 보이며, 이는 유사한 향상 행동을 보임을 시사한다.
결과적으로 기존 DNN 기반 STSA 시스템이 추정된 음성 이해도 측면에서 이미 최적에 가까운 성능을 낼 수 있음을 시사한다.
직접 STOI를 최적화함으로써 MSE 기반 학습 대비 뚜렷한 성능 향상이 관찰되지 않으며, 이는 현재 DNN 기반 음성 향상 프레임워크에서 이해도 향상의 포화 상태에 도달했을 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.