Skip to main content
QUICK REVIEW

[논문 리뷰] The Combination of Several Decorrelation Methods to Improve Acoustic Feedback Cancellation

Klaus Linhard, Philipp Bulling|arXiv (Cornell University)|2026. 02. 06.
Speech and Audio Processing인용 수 0
한 줄 요약

이 연구는 다중 탈상관 확장 방법들(가변 시간 지연, 예측, 왜곡, 잔향 모델링)을 포함한 주파수 도메인 칼만 필터 기반 음향 피드백 제거 시스템을 확장하고 그들의 결합 사용이 공개 데이터 세트에서 PESQ 및 시스템 거리 지표에서 개선을 보여준다.

ABSTRACT

This paper extends an acoustic feedback cancellation system by incorporating multiple decorrelation methods. The baseline system is based on a frequency-domain Kalman filter implemented in a multi-delay structure. The proposed extensions include a variable time delay line, prediction, distortion compensation, and a simplified reverberation model. Each extension is analyzed, and a practical parameter range is defined. While existing literature often focuses on a single extension, such as prediction, to describe an optimal system, this work demonstrates that each individual extension contributes to performance improvements. Furthermore, the combination of all proposed extensions results in a superior system. The evaluation is conducted using publicly available datasets, with performance assessed through system distance metrics and the objective speech quality measure PSEQ.

연구 동기 및 목표

  • 자동차 통신 등 음성 시스템에서의 음향 피드백 제거를 다룬다.
  • 다중 탈상관 확장을 통해 기본 MD-FLMS/칼만 필터 구조를 향상시킨다.
  • 각 확장의 수렴 및 음성 품질에 대한 개별적 및 결합 효과를 정량화한다.
  • 각 확장의 실용적 매개변수 범위를 확립한다.
  • 공개 데이터 세트와 객관적 지표(PESQ, 시스템 거리, 오버플로우)를 사용하여 개선점을 검증한다.

제안 방법

  • 다중 지연 구조(MD-FLMS) 내의 주파수 도메인 칼만 필터에서 시작한다.
  • 탈상관 확장 추가: 고정/가변 시간 지연(비브라토), 예측, 비선형 왜곡, 간이 잔향 모델(에너지 감소 연산자).
  • 수렴을 측정하기 위해 L2 노름 기반의 시스템 거리 sd(l)을 사용하고 조기 sd5 및 지연 sd20+ 지표를 도입한다.
  • 음성 품질 지표로 PESQ를 사용하고 불안정성 방지를 위한 램프 게이트를 가진 루프 이득 g(0, 6, 12, 30 dB)의 범위에서 분석한다.
  • 가변 지연을 최대 지연 ~2 ms 및 변조 주파수 ~1–2 Hz로 매개화한다; 저차수 예측기(Np=2 또는 4)를 사용한다; 비선형 곡선 및 THD 설정(5–10%)을 비교한다.
  • 공개 Lombard 음성 데이터와 ANIR 자동차 임펄스 응답에서 테스트하며 16 kHz 샘플링 및 네 가지 이득 설정으로 남성과 여성을 각각 평균화한다.

실험 결과

연구 질문

  • RQ1개별 탈상관 확장이 기준선 대비 성능을 향상시키는가?
  • RQ2다중 탈상관 방법의 결합이 단일 방법 확장을 능가하는가?
  • RQ3PESQ, 수렴 속도 및 오버플로우를 균형 있게 하는 각 확장의 실용적 매개변수 범위는 무엇인가?
  • RQ4다양한 루프 이득에서 공개 데이터세트(Lombard 및 ANIR)에서 확장들이 음성 및 임펄스 응답 데이터에 대해 어떻게 작용하는가?
  • RQ5비브라토가 예측 및 기타 확장에 비해 시스템 수렴 및 음성 품질에 미치는 상대적 영향은 무엇인가?

주요 결과

  • 각 탈상관 확장이 기준선 대비 성능 개선에 기여한다.
  • 가변 시간 지연(비브라토)이 가장 큰 개선을 제공하고, 그다음이 예측이다.
  • 비브라토와 예측의 결합은 PESQ 및 시스템 거리 지표 모두에서 우수한 성능을 보인다.
  • 비선형 왜곡은 수렴 거리를 개선하지만 더 높은 THD에서 PESQ를 약간 저하시킬 수 있다; THD를 약 5%로 제어하면 균형을 제공한다.
  • 간단한 잔향 모델(곡선 맞춤)은 적응을 안정화시키고 다른 확장과 함께 사용할 때 결과를 추가로 개선한다.
  • 공개 데이터 전반에 걸쳐 모든 확장의 완전한 조합이 가장 좋은 전반 성능을 달성하며, 30 dB 이득에서 오버플로우가 매우 낮다(드물게 발생).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.