QUICK REVIEW

[논문 리뷰] FullSubNet: A Full-Band and Sub-Band Fusion Model for Real-Time Single-Channel Speech Enhancement

Xiang Hao, Xiangdong Su|arXiv (Cornell University)|2020. 10. 29.

Speech and Audio Processing참고 문헌 24인용 수 12

한 줄 요약

FullSubNet은 실시간, 단일 채널 음성 향상 모델로, 순차적 아키텍처를 통해 전체 대역 및 하위 대역 특징을 융합한다: 먼저 전체 대역 모델이 전반적인 스펙트럼적 맥락과 장거리 의존성을 캡처하고, 이를 후속적인 하위 대역 모델에서 국소적 하위 대역 특징(신호 정적성 및 국소 스펙트럼 패턴 포함)과 조합한다. 이 방법은 DNS Challenge 2020 데이터셋에서 최신 기술 수준을 달성하여 목적 함수 평가 지표에서 상위 랭크된 방법들을 능가하면서도 낮은 지연 시간을 유지한다.

ABSTRACT

This paper proposes a full-band and sub-band fusion model, named as FullSubNet, for single-channel real-time speech enhancement. Full-band and sub-band refer to the models that input full-band and sub-band noisy spectral feature, output full-band and sub-band speech target, respectively. The sub-band model processes each frequency independently. Its input consists of one frequency and several context frequencies. The output is the prediction of the clean speech target for the corresponding frequency. These two types of models have distinct characteristics. The full-band model can capture the global spectral context and the long-distance cross-band dependencies. However, it lacks the ability to modeling signal stationarity and attending the local spectral pattern. The sub-band model is just the opposite. In our proposed FullSubNet, we connect a pure full-band model and a pure sub-band model sequentially and use practical joint training to integrate these two types of models' advantages. We conducted experiments on the DNS challenge (INTERSPEECH 2020) dataset to evaluate the proposed method. Experimental results show that full-band and sub-band information are complementary, and the FullSubNet can effectively integrate them. Besides, the performance of the FullSubNet also exceeds that of the top-ranked methods in the DNS Challenge (INTERSPEECH 2020).

연구 동기 및 목표

순수한 전체 대역 및 하위 대역 모델의 단점을 해결하기 위해: 전체 대역 모델은 국소 패턴 및 정적성 모델링이 부족하고, 하위 대역 모델은 장거리 간대역 의존성을 놓친다.
전체 대역 및 하위 대역 표현의 상호보완적 강점을 통합하는 실시간, 엔드 투 엔드 학습 가능한 융합 모델을 설계한다.
전반적인 스펙트럼적 맥락과 국소 신호 특성(정적성 및 스펙트럼 패턴 포함)을 함께 최적화하여 음성 품질과 명료도를 향상시킨다.
특히 WB-PESQ 및 SI-SDR와 같은 목적 평가 지표에서 기존 최신 기술 수준의 방법들보다 뛰어난 성능을 달성하기 위해 DNS Challenge 2020 벤치마크에서 초월한다.

제안 방법

모델은 이중 스트림 아키텍처를 사용한다: 전체 대역 모델은 전체 크기의 세기 스펙트럼을 처리하여 전반적인 맥락과 장거리 의존성을 캡처한다.
하위 대역 모델은 각 주파수 빈도를 독립적으로 처리하며, 중심 주파수 빈도를 포함한 2N+1개 주파수 빈도의 국소 윈도우를 사용하여 신호 정적성 및 국소 스펙트럼 패턴을 모델링한다.
전체 대역 모델의 출력은 하위 대역 입력(주파수 빈도 및 그 이웃의 세기 스펙트럼)과 결합되어 하위 대역 모델의 입력이 된다.
전체 대역 및 하위 대역 모델은 직렬 연결 방식으로 공동으로 학습된다: 전체 대역 모델의 출력이 하위 대역 모델에 보조 입력으로 제공된다.
전체 대역 모델은 이중 레이어 LSTM을 사용하고, 하위 대역 모델 역시 이중 레이어 LSTM을 사용하며, 전체 대역 출력은 하위 대역 네트워크의 맥락 특징으로 기능한다.
정답 음성 신호를 목표로 하여 지도 학습 손실을 사용해 엔드 투 엔드로 학습되며, 최종 출력은 예측된 청소된 세기 스펙트럼이다.

실험 결과

연구 질문

RQ1전체 대역 및 하위 대역 표현을 융합하면, 개별적으로 사용했을 때보다 음성 향상 성능을 향상시킬 수 있는가?
RQ2전반적인 스펙트럼 맥락(전체 대역)과 국소 신호 정적성(하위 대역)의 융합은 저SNR 하위 대역의 모델링을 향상시키는가?
RQ3순차적으로 연결된 융합 아키텍처는 실시간 처리를 유지하면서도 독립적인 전체 대역 또는 하위 대역 모델을 능가할 수 있는가?
RQ4하위 대역 모델이 학습한 정보(예: 정적성, 국소 패턴)는 전체 대역 모델이 캡처한 정보와 상호보완적인가?
RQ5제안된 융합 모델은 목적 평가 지표와 실시간 성능 모두에서 최신 기술 수준의 방법들을 능가할 수 있는가?

주요 결과

반향이 있는 테스트 세트에서 FullSubNet은 WB-PESQ 2.969와 SI-SDR 15.750을 기록하여 하위 대역 모델(WB-PESQ: 2.650, SI-SDR: 14.673)과 전체 대역 모델(WB-PESQ: 2.681, SI-SDR: 13.580)을 크게 앞서며 뚜렷한 성능 향상을 보였다.
반향이 없는 테스트 세트에서는 FullSubNet이 WB-PESQ 2.777과 SI-SDR 17.290을 기록하여 전체 대역 모델(WB-PESQ: 2.731, SI-SDR: 16.190)과 하위 대역 모델(WB-PESQ: 2.369, SI-SDR: 16.153)을 모두 능가하였다.
전체 대역 모델(6.0M)보다 파라미터 수가 적은(5.6M) FullSubNet이 성능에서 앞서며, 하위 대역 모듈이 중복되지 않는 고유한 정보를 기여함을 시사한다.
DCCRN(RT-1, WB-PESQ 3.077)과 PoCoNet(NRT-1, WB-PESQ 2.832)과 같은 상위 랭크된 DNS Challenge 방법들을 초월하여 반향이 있는 세트에서 더 높은 WB-PESQ(2.969)와 더 나은 SI-SDR(15.750)를 기록하였다.
쿼드 코어 CPU에서 32ms의 지연 시간(32ms 프레임 처리 시간)으로 실시간 성능을 달성하여 DNS Challenge의 실시간 요구 조건을 충족하였다.
제거 실험 결과, 전체 대역 및 하위 대역 특징 융합이 상호보완적임을 확인: 전체 대역 모델은 저SNR 영역에서 하위 대역 성능을 향상시키고, 하위 대역 모델은 전체 대역 모델의 국소 다이내믹스 모델링을 강화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.