QUICK REVIEW

[논문 리뷰] Acoustic Echo Cancellation by Combining Adaptive Digital Filter and Recurrent Neural Network

Lu Ma, Hua Huang|arXiv (Cornell University)|2020. 05. 19.

Advanced Adaptive Filtering Techniques참고 문헌 20인용 수 24

한 줄 요약

이 논문은 선형 에코를 보상하는 다중지연 블록 주파수 도메인 적응 필터(MDF)와 게이팅 순환 단위(GRU) 기반 신경망을 조합한 하이브리드 음향 에코 제거(AEC) 시스템을 제안한다. 적응 필터는 선형 에코를 제거하고, RNN은 원근 신호의 주파수 대역 이득을 학습함으로써 비선형 잔여 에코를 특별히 타겟으로 삼아 68 dB의 에코 반복 손실 향상(ERLE)을 달성하며, Speex 및 WebRTC보다 뚜렷이 뛰어난 성능을 보인다.

ABSTRACT

Acoustic Echo Cancellation (AEC) plays a key role in voice interaction. Due to the explicit mathematical principle and intelligent nature to accommodate conditions, adaptive filters with different types of implementations are always used for AEC, giving considerable performance. However, there would be some kinds of residual echo in the results, including linear residue introduced by mismatching between estimation and the reality and non-linear residue mostly caused by non-linear components on the audio devices. The linear residue can be reduced with elaborate structure and methods, leaving the non-linear residue intractable for suppression. Though, some non-linear processing methods have already be raised, they are complicated and inefficient for suppression, and would bring damage to the speech audio. In this paper, a fusion scheme by combining adaptive filter and neural network is proposed for AEC. The echo could be reduced in a large scale by adaptive filtering, resulting in little residual echo. Though it is much smaller than speech audio, it could also be perceived by human ear and would make communication annoy. The neural network is elaborately designed and trained for suppressing such residual echo. Experiments compared with prevailing methods are conducted, validating the effectiveness and superiority of the proposed combination scheme.

연구 동기 및 목표

적응 필터가 완전히 억제하지 못하는 비선형 성분을 포함한 잔여 에코를 해결하기 위해.
기존의 적응 필터링 및 Speex, WebRTC와 같은 오픈소스 AEC 시스템을 초월한 에코 억제 성능 향상을 위해.
실시간 구현에 적합하고 효율적이며 낮은 왜곡을 보이는 신경망 기반의 잔여 에코 억제 방법을 개발하기 위해.
잔여 에코로 인한 청각적 불편을 줄이면서도 음성 품질을 유지하고 처리 지연을 최소화하기 위해.

제안 방법

변동 학습률을 갖는 다중지연 블록 주파수 도메인(MDF) 적응 필터를 사용하여 주로 선형 에코를 제거하며, 원근 참조 신호와 실내 인력 응답(RIR) 추정을 활용한다.
MDF 필터링 이후의 잔여 신호는 음성과는 다른 스펙트럼 특성을 지닌 노이즈 유사 성분으로 간주되어 타겟된 억제가 가능하다.
게이팅 순환 단위(GRU) 신경망을 사용하여 잔여 에코를 억제하기 위한 주파수 대역 이득을 추정하도록 학습한다. 이때 청소된 음성과 잔여 신호의 에너지 비율을 레이블로 사용한다.
프레임 단위로 근거리 및 원거리 신호의 특징 벡터를 추출하고, 네트워크는 잔여 에너지를 최소화하도록 각 주파수 대역 별로 이득을 조정하도록 학습한다.
이중 대화 감지 및 강인성 향상을 위해 양방향 채널에 대해 별도로 음성 활성도 검출(VAD) 모듈을 독립적으로 학습시킨다.
모델은 세 가지 목적을 사용하여 학습되며, 근거리 및 원거리 신호의 VAD와 주파수 대역 이득 추정을 포함하며, 학습 과정에서 손실 함수가 거의 0에 수렴한다.

실험 결과

연구 질문

RQ1적응 필터링과 딥러닝을 조합한 하이브리드 시스템이 AEC에서 비선형 잔여 에코를 효과적으로 억제할 수 있는가?
RQ2제안된 RNN 기반의 잔여 에코 억제 방법이 Speex 및 WebRTC와 같은 최첨단 AEC 시스템과 비교해 에코 억제 성능과 음성 품질 측면에서 어떻게 다른가?
RQ3GRU 네트워크가 청각적으로 관련성이 있는 주파수 대역 이득을 얼마나 잘 학습하여 청소된 음성의 왜곡 없이 잔여 에코를 줄일 수 있는가?
RQ4제안된 시스템에서 에코 억제 성능(ERLE), 스펙트럼 왜곡(LSD), 처리 지연(RT), 모델 크기 간의 상호 상충 관계는 어떠한가?

주요 결과

제안된 방법은 68 dB의 에코 반복 손실 향상(ERLE)을 달성하여 Speex(25 dB) 및 WebRTC(40 dB)보다 뚜렷이 뛰어나다.
로그 스펙트럼 거리(LSD)가 1.18 dB로 낮은 스펙트럼 왜곡을 나타내며, WebRTC(1.66 dB)를 초월하고 Speex(1.01 dB)에 가까운 성능을 보인다.
1.63 ms/프레임의 반응 시간은 Speex(0.42 ms/프레임) 및 WebRTC(0.45 ms/프레임)보다 높지만, 실시간 응용에 적합한 범위에 속한다.
모델 크기는 450 kb로 Speex(106 kb) 및 WebRTC(140 kb)보다 크지만, 특화된 VAD 구조와 중간 결과 클리핑을 통해 최적화되었다.
스펙트로그램 분석 결과, 특히 음성 갭에서 오직 에코만 남아 있는 영역에서 제안된 방법이 WebRTC보다 더 효과적으로 잔여 에코를 억제하는 것으로 나타났다.
신경망은 잔여 에코 에너지가 집중된 저주파 대역에서 낮은 이득을 적용하도록 학습하는 것으로 확인되어 효과적인 스펙트럼 타겟팅이 이루어졌음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.