QUICK REVIEW

[논문 리뷰] DNN-based mask estimation for distributed speech enhancement in spatially unconstrained microphone arrays

Nicolas Furnon, Romain Serizel|arXiv (Cornell University)|2020. 11. 03.

Speech and Audio Processing참고 문헌 54인용 수 27

한 줄 요약

이 논문은 표적 및 노이즈 추정치를 포함한 압축된 신호를 사용하여 공간적으로 제약이 없는 마이크 배열에서 분산 DNN 기반 음성 강화 방법을 제안한다. 이는 노드 간 협업을 가능하게 한다. 오라클 VAD를 사용할 경우 DANSE 수준의 성능을 달성하며, 입력 SIR가 열 劣한 노드일수록 공간적 협업에서 가장 큰 이점을 얻음을 보여주어, 표적 및 노이즈 추정치를 함께 공유함으로써 더 높은 내성과 성능 향상을 달성할 수 있음을 검증한다.

ABSTRACT

Deep neural network (DNN)-based speech enhancement algorithms in microphone arrays have now proven to be efficient solutions to speech understanding and speech recognition in noisy environments. However, in the context of ad-hoc microphone arrays, many challenges remain and raise the need for distributed processing. In this paper, we propose to extend a previously introduced distributed DNN-based time-frequency mask estimation scheme that can efficiently use spatial information in form of so-called compressed signals which are pre-filtered target estimations. We study the performance of this algorithm under realistic acoustic conditions and investigate practical aspects of its optimal application. We show that the nodes in the microphone array cooperate by taking profit of their spatial coverage in the room. We also propose to use the compressed signals not only to convey the target estimation but also the noise estimation in order to exploit the acoustic diversity recorded throughout the microphone array.

연구 동기 및 목표

임의의 공간적 제약이 없는 마이크 배열에서 중심 집중식 음성 강화의 한계를 해결하기 위해 분산 처리를 가능하게 한다.
실제 무선 음향 센서 네트워크(WASNs)에서 MVDR 및 MWF와 같은 전통적인 다중채널 빔포머의 대역폭 제약과 융합 센터 의존성 문제를 해결한다.
표적 및 노이즈 추정치를 담은 압축된 신호를 노드 간 협업적으로 공유함으로써 음성 강화 성능을 향상시킨다.
표적 추정치와 노이즈 추정치를 전송하는 데 미치는 영향을 DNN 기반 마스크 추정 및 전체 시스템 성능에 대해 조사한다.
실제 음향 환경에서의 현실적인 조건과 학습-테스트 분포 불일치에 대한 내성성을 검증한다.

제안 방법

각 노드가 압축된 신호(사전 필터링된 표적 추정치)를 계산하고 다른 노드와 공유하는 분산 DNN 기반 시간-주파수 마스크 추정 프레임워크를 제안한다.
압축된 신호를 표적 추정뿐만 아니라 노이즈 추정치를 전달하는 데도 활용하여 배열 전반의 음향 다양성을 활용한다.
각 노드에서 다중채널 DNN를 적용하여 다른 노드의 압축된 신호를 사용해 이상적 비율 마스크(IRM)를 추정함으로써 공간적 협업을 가능하게 한다.
이중 단계 필터링 프로세스를 통합한다: 첫 번째로 로컬 신호를 사용한 개별 노드 처리; 두 번째로 공유된 압축된 신호를 사용한 협업 처리.
빔포머 설계를 위해 일반화된 고유값 분해(GEVD)를 적용하고, STFT 도메인 처리를 통해 시간-주파수 표현을 모델링한다.
손실 함수를 마스크 예측에 대한 평균 제곱오차(MSE)로 최소화함으로써, 표적 및 노이즈 추정치를 입력 특징으로 사용해 DNN를 학습시킨다.

실험 결과

연구 질문

RQ1공간적으로 제약이 없는 마이크 배열에서 제안된 분산 DNN 기반 마스크 추정 성능이 오라클 VAD를 사용한 중심 집중식 DANSE와 비교해 어떻게 되는가?
RQ2압축된 신호에 표적 추정치와 노이즈 추정치를 모두 전송하는 것과 표적 추정치만 전송하는 것에 비해 상대적 이점은 무엇인가?
RQ3어느 노드가 공간적 협업에서 가장 큰 이점을 얻는가? 그리고 입력 신호 품질(예: SIR)이 성능 향상에 미치는 영향은 어떠한가?
RQ4실제 음향 환경에서 학습 조건과 테스트 조건 간 불일치가 발생할 경우 DNN 기반 방법의 내성은 어떠한가?
RQ5융합 센터나 동기화된 시계가 필요 없이도 제안된 방법이 최신 중심 집중식 솔루션과 유사한 성능을 달성할 수 있는가?

주요 결과

제안된 방법은 오라클 VAD를 사용한 중심 집중식 DANSE와 유사한 음성 강화 성능을 달성하여 분산 환경에서의 효과성을 입증한다.
입력 SIR가 가장 낮은 노드(최저 1 dB)일수록 공간적 협업에서 가장 큰 이점을 얻으며, 정보 공유 후 출력 SIR가 크게 향상된다.
압축된 신호에 표적 및 노이즈 추정치를 모두 전송하는 것은 성능 저하를 유발하지 않으며, 이점이 있을 수 있으나, 표적 추정치만 전송하는 것과 비교해 통계적으로 유의미한 이점은 없다.
두 번째 필터링 단계(S2)에서 가장 우수한 출력 노드의 SIR_cn_v는 23.9 dB에 도달하여, 첫 번째 필터링 단계에서 가장 우수한 입력 노드(S1 bi: 20.5 dB)보다 뚜렷이 높다. 이는 강력한 협업 이득을 의미한다.
가장 우수한 출력 노드에서의 SAR_cn_v는 8.3 dB에 도달하여, 다수의 노드 간 협업 추정으로 인해 소스 대 아티팩트 비율이 향상됨을 보여준다.
첫 번째 및 두 번째 필터링 단계 간 성능 격차가 가장 우수한 출력 노드에서 가장 두드러지며, 이는 다중 노드 DNN가 가장 우수한 입력 노드로부터 고품질의 압축된 신호를 받을수록 가장 큰 이점을 얻음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.