Skip to main content
QUICK REVIEW

[논문 리뷰] Data Augmentation for Pathological Speech Enhancement

Mingchi Hou, Enno Hermann|arXiv (Cornell University)|2026. 02. 16.
Speech and Audio Processing인용 수 0
한 줄 요약

이 논문은 예측적 및 생성적 SE 모델을 사용한 병적 음성 향상을 위한 변환적, 생성적, 노이즈 데이터 증강 전략을 체계적으로 평가하고, 노이즈 증강이 가장 효과적이지만 결과는 모델에 따라 달라진다는 점을 발견했다.

ABSTRACT

The performance of state-of-the-art speech enhancement (SE) models considerably degrades for pathological speech due to atypical acoustic characteristics and limited data availability. This paper systematically investigates data augmentation (DA) strategies to improve SE performance for pathological speakers, evaluating both predictive and generative SE models. We examine three DA categories, i.e., transformative, generative, and noise augmentation, assessing their impact with objective SE metrics. Experimental results show that noise augmentation consistently delivers the largest and most robust gains, transformative augmentations provide moderate improvements, while generative augmentation yields limited benefits and can harm performance as the amount of synthetic data increases. Furthermore, we show that the effectiveness of DA varies depending on the SE model, with DA being more beneficial for predictive SE models. While our results demonstrate that DA improves SE performance for pathological speakers, a performance gap between neurotypical and pathological speech persists, highlighting the need for future research on targeted DA strategies for pathological speech.

연구 동기 및 목표

  • 데이터 부족과 특이한 음향 특성으로 인한 병적 음성에 대한 SE 성능 향상을 촉진한다.
  • 병리적 화자에 대한 SE 정확도에 미치는 3가지 DA 범주(변환적, 생성적, 노이즈)의 영향을 평가한다.
  • 다양한 증강 전략 하에서 예측적 및 생성적 SE 모델을 비교한다.
  • 병적 음성 데이터셋에 대한 효과적인 DA 비율과 전략 선택에 대한 지침을 제공한다.

제안 방법

  • 네 가지 transformative, 두 가지 generative, 그리고 노이즈 증강을 포함한 여섯 가지 DA 전략을 세 가지 증강 비율(25%, 100%, 400%)에서 평가한다.
  • 예측적 복소값 회귀(CR) 모델과 Schrödinger Bridge(SB) 생성 모델의 두 가지 SE 모델을 사용한다.
  • 지정된 창/홉 및 정규화를 갖는 STFT 도메인에서 신호를 표현하고; 10-fold 화자 독립 CV로 스페인 PC-GITA 데이터셋에서 Adam 옵티마이저로 학습한다.
  • 생성적 증강을 위해 YourTTS 및 XTTS를 통해 합성 데이터를 생성하고; CHiME3 잡음을 무작위 SNR로 혼합하여 잡음 샘플을 생성한다.
  • 주요 지표로 PESQ 및 fwSSNR을 사용하여 성능을 평가한다(ΔPESQ, ΔfwSSNR).
  • 병적 음성 및 신경정상 화자 모두에서 증강 비율과 전략의 효과를 검토한다.

실험 결과

연구 질문

  • RQ1변환적, 생성적, 노이즈 증강이 병적 음성의 SE 성능을 향상시키는가?
  • RQ2증강 비율과 SE 모델 유형은 각 DA 범주의 효과에 어떤 영향을 미치는가?
  • RQ3어떤 DA 전략이 병적 음성과 일반 음성에 가장 잘 일반화되는가?
  • RQ4병적 음성에서 어떤 증강이 성능 향상이나 저하를 가져오는지에 대한 설명은 무엇인가?
  • RQ5증강 기반 이득으로 병적 음성 SE를 신경정상 성능에 얼마나 근접시킬 수 있는가?

주요 결과

  • 노이즈 증강은 모든 모델과 증강 비율에서 가장 크고 가장 강건한 이득을 제공한다.
  • 변환적 증강은 보통의 향상을 제공하며(타임 스트레칭 및 SpecMix), 피치 시프팅은 성능을 저하시킬 수 있다.
  • 생성적 증강은 제한적이거나 부정적인 영향을 제공하며, 특히 높은 증강 비율에서 신경정상 학습된 TTS와 병적 음성 간의 불일치로 인해 그렇다.
  • CR 모델은 SB 모델보다 DA의 이점을 더 많이 얻고, 변환적 증강에 대해 모델 의존적 효과를 보인다.
  • 과도한 증강(예: 400%)은 SB 성능에 해를 끼칠 수 있으며, 조건 분포의 변동성 증가 때문이라고 한다.
  • DA 이득에도 불구하고 신경정상 음성과 병적 음성 간의 성능 차이는 남아 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.