Skip to main content
QUICK REVIEW

[논문 리뷰] End-to-End Multi-Channel Speech Separation

Rongzhi Gu, Jian Wu|arXiv (Cornell University)|2019. 05. 15.
Speech and Audio Processing참고 문헌 23인용 수 80
한 줄 요약

논문은 STFT/IPD를 시계열 도 convolution 커널로 재구성하고 학습 가능하게 만들어 데이터로부터 공간 특징을 직접 학습하는 엔드투엔드 시간 도메인 다중 채널 음성 분리 모델을 제안한다.

ABSTRACT

The end-to-end approach for single-channel speech separation has been studied recently and shown promising results. This paper extended the previous approach and proposed a new end-to-end model for multi-channel speech separation. The primary contributions of this work include 1) an integrated waveform-in waveform-out separation system in a single neural network architecture. 2) We reformulate the traditional short time Fourier transform (STFT) and inter-channel phase difference (IPD) as a function of time-domain convolution with a special kernel. 3) We further relaxed those fixed kernels to be learnable, so that the entire architecture becomes purely data-driven and can be trained from end-to-end. We demonstrate on the WSJ0 far-field speech separation task that, with the benefit of learnable spatial features, our proposed end-to-end multi-channel model significantly improved the performance of previous end-to-end single-channel method and traditional multi-channel methods.

연구 동기 및 목표

  • 원거리 환경에서 잔향과 공간 단서를 해결하기 위해 엔드투엔드 다채널 음성 분리를 동기 부여한다.
  • 파형 입력-파형 출력 처리를 하나의 신경망 내에 통합한다.
  • STFT와 IPD를 학습 가능한 시계열 합성곱으로 재구성하여 엔드투엔드 학습을 가능하게 한다.
  • WSJ0 원거리 데이터에서 이전의 단일 채널 엔드투엔드 방법 및 전통적 다채널 접근법 대비 성능 향상을 입증한다.

제안 방법

  • TasNet 스타일의 시계열 분리를 다채널 입력으로 확장한다.
  • 초기, 중간 또는 말단 융합 스킴에서 교차 도메인 학습을 통해 주파수 영역 공간 특징(IPD)을 통합한다.
  • STFT와 IPD를 학습 가능한 커널을 갖는 컨볼루션으로 재구성하여 시계열 신호로부터 IPD의 엔드투엔드 학습을 가능하게 한다.
  • SI-SNR 손실로 엔드투엔드 방식으로 전체 시스템을 학습한다.
  • 교차 도메인 학습, 병렬 인코더, 학습 가능한 커널을 가진 엔드투엔드 분리 등 여러 베이스라인 및 경쟁 아키텍처를 평가한다.

실험 결과

연구 질문

  • RQ1엔드투엔드 시계열 다채널 분리 시스템이 원거리 데이터에서 기존 다채널 스펙트럴 방법 및 단일 채널 엔드투엔드 모델보다 우수한 성능을 낼 수 있는가?
  • RQ2단일 네트워크 내 학습 가능한 시계열 IPD 계산이 공간 분리 성능을 향상시키는가?
  • RQ3시계열 및 주파수 영역 공간 특징을 통합하는 다양한 융합 전략(초기/중간/말단)의 영향은 무엇인가?
  • RQ4WSJ0 2-mix 반향 데이터에서 엔드투엔드 모델은 교차 도메인 및 계단식 approaches와 어떤 비교를 보이는가?

주요 결과

  • 학습 가능한 IPD 커널과 cosIPD/sinIPD 특징을 갖춘 엔드투엔드 다채널 분리는 WSJ0 원거리 데이터에서 강력한 SI-SNR 향상을 달성한다.
  • LPS와 IPD 특징을 활용한 교차 도메인 학습은 단일 채널 TasNet 및 일부 주파수 영역 기반 베이스라인보다 성능을 향상시킨다.
  • 고정된 STFT 유사 커널은 강력한 초기 IPD 표현을 제공하고, 학습 가능한 커널(특히 sinIPD의 경우)이 실험 구성 중 최상의 성능을 낸다.
  • 제안된 엔드투엔드 접근법은 보고된 설정에서 이상적인 시-주파수 마스크(IBM/IRM/IPSM)를 능가한다.
  • 다채널 간 큰 각 차이를 보이는 샘플에서 병렬 인코더 및 융합 전략이 성능을 더 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.