QUICK REVIEW

[논문 리뷰] FaSNet: Low-latency Adaptive Beamforming for Multi-microphone Audio Processing

Yi Luo, Enea Ceolini|Zurich Open Repository and Archive (University of Zurich)|2019. 09. 29.

Speech and Audio Processing참고 문헌 40인용 수 30

한 줄 요약

FaSNet은 정규화된 상호상관관계(NCC)와 같은 채널 간 특징에서 적응형 beamforming 필터를 학습하는 저지연, 시간 도메인, 필터-합 beamforming 네트워크로, 이중 단계의 시간적 컨volutional 네트워크(TCN)를 사용한다. 반향성과 노이즈가 있는 조건에서 최신 기술 수준의 성능을 달성하며, 주파수 도메인 목표로 훈련할 경우 CHiME-3 데이터셋에서 단어 오류율(WER)을 14.3% 감소시킨다.

ABSTRACT

Beamforming has been extensively investigated for multi-channel audio processing tasks. Recently, learning-based beamforming methods, sometimes called extit{neural beamformers}, have achieved significant improvements in both signal quality (e.g. signal-to-noise ratio (SNR)) and speech recognition (e.g. word error rate (WER)). Such systems are generally non-causal and require a large context for robust estimation of inter-channel features, which is impractical in applications requiring low-latency responses. In this paper, we propose filter-and-sum network (FaSNet), a time-domain, filter-based beamforming approach suitable for low-latency scenarios. FaSNet has a two-stage system design that first learns frame-level time-domain adaptive beamforming filters for a selected reference channel, and then calculate the filters for all remaining channels. The filtered outputs at all channels are summed to generate the final output. Experiments show that despite its small model size, FaSNet is able to outperform several traditional oracle beamformers with respect to scale-invariant signal-to-noise ratio (SI-SNR) in reverberant speech enhancement and separation tasks. Moreover, when trained with a frequency-domain objective function on the CHiME-3 dataset, FaSNet achieves 14.3\% relative word error rate reduction (RWERR) compared with the baseline model. These results show the efficacy of FaSNet particularly in reverberant and noisy signal conditions.

연구 동기 및 목표

실시간 저지연 오디오 처리 응용 분야에서 기존의 학습 기반 beamformer, 특히 주파수 도메인 방법의 높은 지연 문제를 해결하기 위해.
반향성과 노이즈가 있는 환경에서도 높은 성능을 유지하는 시간 도메인, 인과적 beamforming 시스템을 설계하기 위해.
신호 수준 및 ASR 수준의 훈련 목표를 모두 지원함으로써 자동 음성 인식(ASR) 백엔드와 엔드 투 엔드 통합을 가능하게 하기 위해.
작고 적응형인 필터-합 아키텍처가 도전적인 음향 조건에서 전통적인 비인과적 beamformer를 능가할 수 있는지 입증하기 위해.

제안 방법

FaSNet은 이중 단계 아키텍처를 사용한다: 첫 번째 단계는 정규화된 상호상관관계(NCC) 특징에 대해 시간적 컨volutional 네트워크(TCN)를 적용하여 기준 마이크로폰을 위한 시간 도메인 beamforming 필터를 추정한다.
두 번째 단계는 청소된 기준 신호를 사용하여 모든 다른 마이크로폰을 위한 필터를 추정함으로써 전체 어레이 beamforming을 가능하게 한다.
채널 간 특징은 채널 간 상관관계의余弦 유사도에서 유도되며, 필터 추정을 위한 강력한 공간적 단서를 제공한다.
TCN 기반 필터 추정기는 유연성을 위해 신호 수준 목표(SI-SNR 등) 또는 ASR 수준 목표(mel-spectrogram 손실 등)로 훈련된다.
시스템은 인과적이고 저지연이므로 실시간 온라인 오디오 처리에 적합한 설계가 되어 있다.
모든 마이크로폰의 필터 출력을 합산하여 단일 채널 beamformed 출력을 생성하며, 고전적인 필터-합(FaS) beamforming 파라다임을 따르고 있다.

실험 결과

연구 질문

RQ1시간 도메인, 인과적 beamforming 네트워크가 반향성과 노이즈가 있는 환경에서 비인과적 기존 beamformer와 비교해 성능이 유사하거나 뛰어나게 할 수 있는가?
RQ2적응형 TCN 기반 필터를 갖춘 이중 단계의 필터-합 아키텍처가 저지연 환경에서 고정 beamforming 또는 마스킹 기반 접근법보다 뛰어나게 성능을 내는가?
RQ3엔드 투 엔드 훈련을 통해 FaSNet을 ASR 프론트엔드로 사용할 경우, ASR 성능 향상 정도는 어느 정도인가?
RQ4FaSNet의 beamforming 필터는 다양한 음성 및 비음성 콘텐츠 세그먼트에서 얼마나 적응형으로 작동하는가?

주요 결과

FaSNet은 에코성 노이즈 있는 음성 강화(ESE) 및 에코성 노이즈 있는 음성 분離(ESS) 작업 모두에서 스케일 불변 신호 대 잡음비(SI-SNR) 측면에서 몇 가지 전통적인 오라클 beamformer를 능가한다.
CHiME-3 데이터셋에서, FaSNet은 청소된 신호의 mel-spectrogram과 SI-MSE 손실로 훈련했을 경우 기준 모델 대비 14.3%의 상대적 단어 오류율 감소(RWERR)를 달성한다.
반향성 있는 청소된 신호와 SI-SNR 목표로 훈련했을 경우, FaSNet은 12.2 dB의 SI-SNR 향상을 기록하며, Conv-TasNet 기준 모델(8.7 dB)을 크게 능가한다.
시각화 결과 FaSNet이 콘텐츠에 따라 의존적인 비프래턴을 학습하는 것으로 나타났으며, 비음성 영역에는 노드가 형성되고 음성 영역에서는 방향성 적응형 반응을 보였다.
작은 모델 크기로도 높은 성능를 유지하여 효율성과 저지연 실시간 응용 분야에 적합함을 입증했다.
시스템은 매우 유연하며, 단일 채널 음성 강화 또는 ASR 시스템과 어떤 조합도 가능하므로 모듈식 통합이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.