[논문 리뷰] Towards Intelligibility-Oriented Audio-Visual Speech Enhancement
이 논문은 음성 이해도 향상을 위해 수정된 단기 목표 이해도(Short-Time Objective Intelligibility, STOI) 지표를 손실 함수로 사용하는 새로운 음성-시각( audio-visual, AV) 음성 강화 프레임워크를 제안한다. 주어진 주파수 도메인의 세기 스펙트럼에 대해 음성과 시각 정보를 동시에 통합하여 풀 컨volution 신경망(FCN)을 훈련시킴으로써, 기존의 거리 기반 손실 함수(MSE, MAE)와 최신의 음성 전용 STOI 기반 모델보다 뛰어난 성능을 달성하였으며, 특히 새로운 화자와 소음을 포함한 불일치한 테스트 조건에서도 뛰어난 성능을 보였다.
Existing deep learning (DL) based speech enhancement approaches are generally optimised to minimise the distance between clean and enhanced speech features. These often result in improved speech quality however they suffer from a lack of generalisation and may not deliver the required speech intelligibility in real noisy situations. In an attempt to address these challenges, researchers have explored intelligibility-oriented (I-O) loss functions and integration of audio-visual (AV) information for more robust speech enhancement (SE). In this paper, we introduce DL based I-O SE algorithms exploiting AV information, which is a novel and previously unexplored research direction. Specifically, we present a fully convolutional AV SE model that uses a modified short-time objective intelligibility (STOI) metric as a training cost function. To the best of our knowledge, this is the first work that exploits the integration of AV modalities with an I-O based loss function for SE. Comparative experimental results demonstrate that our proposed I-O AV SE framework outperforms audio-only (AO) and AV models trained with conventional distance-based loss functions, in terms of standard objective evaluation measures when dealing with unseen speakers and noises.
연구 동기 및 목표
- 기존의 깊이 학습 기반 음성 강화(SE) 시스템이 음성 품질 향상에 집중하는 데서 비롯하는 한계를 해결하기 위해.
- 시각 정보를 이해도 중심(I-O) 손실 함수와 통합할 경우 실생활 소음 환경에서의 SE 성능 향상 여부를 조사하기 위해.
- 수정된 STOI 지표를 훈련 목표로 사용하는 주파수 도메인 기반의 새로운 음성-시각 딥 러닝 프레임워크를 개발하고 검증하기 위해.
- 음성 전용 및 음성-시각 SE 환경에서 이해도 중심 손실 함수(STOI)와 기존의 거리 기반 손실 함수(MSE, MAE)의 성능을 비교하기 위해.
- 표준화된 목적 평가 지표를 사용하여 제안된 모델이 새로운 화자와 소음 유형에 대한 일반화 능력을 어떻게 평가할 것인지 검토하기 위해.
제안 방법
- 음성-시각 입력을 기반으로 주파수 도메인에서 노이즈가 있는 음성에서 청소된 음성으로의 스펙트럼 매핑을 학습하기 위해 U-Net 아키텍처를 기반으로 한 완전 컨volution 신경망(FCN)을 제안한다.
- 음성의 스펙트로그램과 영상에서 추출한 얼굴 랜드마크 시퀀스를 조합하여 초기 융합을 통해 음성과 시각 특징을 통합하고, 3D 컨볼루션 레이어를 사용한다.
- 기존의 STOI 지표를 수정하여 16kHz 주파수 도메인의 세기 스펙트럼에 직접 적용함으로써, 시간 도메인의 다운샘플링 및 침묵 프레임 제거가 필요 없도록 한다.
- 수정된 STOI를 주요 손실 함수(LSTOI)로 사용하여 AV 모델을 훈련함으로써 인간의 음성 이해도 인식과 훈련 목표를 일치시키고자 한다.
- 동일한 조건에서 MSE 및 MAE 손실 함수로 훈련된 음성 전용(AO) 및 AV 모델과 비교하여 제안된 STOI 기반 AV 모델의 성능을 평가한다.
- 실제적인 소음 환경을 시뮬레이션하기 위해 GRID 코퍼스의 이중 화자 합성 혼합 데이터를 사용하며, 랜덤 SNR을 적용한다.
실험 결과
연구 질문
- RQ1음성-시각 환경에서 기존의 거리 기반 손실 함수(MSE, MAE)에 비해 이해도 중심 손실 함수(수정된 STOI)가 음성 강화 성능 향상에 기여하는가?
- RQ2이해도 중심 손실 함수와 시각 정보를 통합할 경우, 새로운 화자와 소음 유형에 대한 일반화 능력이 향상되는가?
- RQ3시간 도메인 전처리 없이 주파수 도메인 세기 스펙트럼에 직접 적용된 수정된 STOI 지표가 훈련 목표로써 얼마나 잘 작동하는가?
- RQ4목적 평가 지표 측면에서 제안된 AV SE 프레임워크가 최신의 음성 전용 및 음성-시각 SE 시스템을 얼마나 뛰어나게 성능을 내는가?
- RQ5STOI를 손실 함수로 사용할 경우, 시각 모odal 정보와 결합했을 때 성능 향상 효과가 더 두드러지는가?
주요 결과
- 제안된 STOI 기반 AV SE 모델은 0.914의 최고 수준의 STOI 점수를 기록하여, 다음으로 높은 성능을 보인 MAE 기반 AV 모델(0.887)과 모든 음성 전용 기준 모델을 크게 앞섰다.
- 모델은 PESQ 점수 3.206과 SI-SDR 12.403을 기록하여, 평가된 모든 프레임워크 중에서 가장 높은 성능을 보였으며, 이는 뛰어난 음성 품질과 노이즈 제거 능력을 의미한다.
- STOI 기반 AV 모델은 VISQOL 점수를 4.270까지 향상시켜, 다른 방법들에 비해 향상된 청취 품질과 자연스러움을 보여주었다.
- 스펙트로그램 분석 결과, STOI 기반 AV 모델이 MSE 및 MAE 기반 모델에 비해 저주파, 중주파, 고주파 대역에서 더 많은 음성 성분을 복원하는 것으로 확인되었으며, 특히 노이즈가 강한 영역에서 두드러진 성능을 보였다.
- 다수의 지표에서 뛰어난 성능를 보였음에도 불구하고, STOI 기반 AV 모델은 CSIG, CBAK, COVL 지표에서 MAE 기반 AV 모델에 약간 뒤지며, 청취 품질의 다양한 측면에서 상충 관계가 존재할 수 있음을 시사한다.
- 수정된 STOI 지표는 원래 STOI 및 확장된 STOI와 강한 상관관계(r > 0.95)를 보이며, 주파수 도메인 AV SE에 대한 훈련 목표로 신뢰할 수 있음을 검증하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.