QUICK REVIEW

[논문 리뷰] TasNet: time-domain audio separation network for real-time, single-channel speech separation

Yi Luo, Nima Mesgarani|arXiv (Cornell University)|2017. 11. 01.

Speech and Audio Processing참고 문헌 19인용 수 37

한 줄 요약

TasNet는 STFT 기반 시간-주파수 표현을 생략하고 원시 파형에 직접 작용하는 시간 도메인 인코더-디코더 프레임워크를 사용하여 실시간, 단일 채널 음성 분리 시스템을 제안한다. 신호를 학습된 기저 신호의 비음성 조합으로 모델링하고 인코더 출력에 소스 마스크를 추정함으로써 TasNet는 총 지연 시간이 단 5.23ms에 불과하여 인과적 및 비인과적 설정 모두에서 STFT 기반 방법보다 뛰어난 성능을 달성한다.

ABSTRACT

Robust speech processing in multi-talker environments requires effective speech separation. Recent deep learning systems have made significant progress toward solving this problem, yet it remains challenging particularly in real-time, short latency applications. Most methods attempt to construct a mask for each source in time-frequency representation of the mixture signal which is not necessarily an optimal representation for speech separation. In addition, time-frequency decomposition results in inherent problems such as phase/magnitude decoupling and long time window which is required to achieve sufficient frequency resolution. We propose Time-domain Audio Separation Network (TasNet) to overcome these limitations. We directly model the signal in the time-domain using an encoder-decoder framework and perform the source separation on nonnegative encoder outputs. This method removes the frequency decomposition step and reduces the separation problem to estimation of source masks on encoder outputs which is then synthesized by the decoder. Our system outperforms the current state-of-the-art causal and noncausal speech separation algorithms, reduces the computational cost of speech separation, and significantly reduces the minimum required latency of the output. This makes TasNet suitable for applications where low-power, real-time implementation is desirable such as in hearable and telecommunication devices.

연구 동기 및 목표

STFT 기반 음성 분리의 한계, 즉 위상-세기 분리 및 긴 시간 창으로 인한 높은 지연을 해결하기 위해.
청취기 및 통신 장치에 적합한 실시간, 저지연 음성 분리 기능을 제공하기 위해.
시간 도메인 신경망을 통한 원시 파형 직접 모델링이 주파수 도메인 접근 방식을 능가할 수 있는지 탐색하기 위해.
STFT 및 역STFT 처리가 필요 없어지면서 계산 비용을 줄이고 분리 성능를 향상시키기 위해.

제안 방법

시스템은 원시 파형을 학습된 기저 신호를 사용한 비음성 가중치 표현으로 변환하기 위해 1D 컨volutional 인코더를 사용한다.
소스 분리는 인코더 출력에 대한 소스 마스크를 추정하여 수행되며, 이는 각 화자에 의해 혼합 가중치에 기여하는 정도를 나타낸다.
1D 역컨volutional 디코더는 마스킹된 인코더 출력에서 분리된 파형을 재구성한다.
네트워크는 재구성된 파형에 대한 L1 손실을 사용하는 비음성 오토인코더 프레임워크로 훈련된다.
인과적 추론은 단방향 LSTMs를 사용하고, 비인과적 추론은 성능 향상을 위해 양방향 LSTMs를 사용한다.
기저 신호는 종단간 학습되며, 저주파수 해상도가 높은 멜 필터뱅크와 유사한 주파수 응답을 나타낸다.

실험 결과

연구 질문

RQ1원시 파형의 직접적인 시간 도메인 모델링이 성능 및 지연 측면에서 기존의 STFT 기반 음성 분리보다 뛰어나게 될 수 있는가?
RQ2STFT 단계를 제거함으로써 위상 관련 아티팩트가 감소하고 분리 품질이 향상되는가?
RQ3시간 도메인 시스템이 청각 보조기기 및 통신 장치에 적합한 실시간 처리를 최소 지연으로 달성할 수 있는가?
RQ4학습된 기저 표현은 전통적인 필터뱅크에 비해 스펙트럼 해상도와 화자 분리 능력 측면에서 어떻게 비교되는가?
RQ5비음성 인코더 출력이 소스 마스크 추정의 안정성과 성능에 미치는 영향은 무엇인가?

주요 결과

TasNet-LSTM는 WSJ0-2mix 데이터셋에서 SI-SNRi 7.7 dB, SDRi 8.0 dB를 기록하여 이전 최고 성능의 인과적 시스템(uPIT-LSTM)보다 SI-SNRi에서 0.7 dB 향상되었다.
TasNet-BLSTM는 SI-SNRi 10.8 dB, SDRi 11.1 dB를 달성하여, uPIT-BLSTM-ST와 같은 이중 단계 방법을 포함한 모든 이전 시스템을 뛰어넘었다.
TasNet-LSTM의 총 시스템 지연은 단 5.23 ms였으며, 이는 5 ms의 초기 지연과 0.23 ms의 세그먼트당 처리 시간으로 구성되었고, STFT 기반 시스템이 요구하는 최소 32 ms보다 크게 낮았다.
TasNet가 학습한 기저 신호는 저주파수에서 더 높은 해상도를 가지며 연속적인 주파수 응답을 보이며, 60%가 1 kHz 이하의 중심 주파수를 가진다.
TasNet는 상태의 최고 성능 STFT 기반 시스템 대비 6배의 속도 향상을 달성했으며, Titan X GPU에서 세그먼트당 처리 시간이 0.23 ms 이하였다.
TasNet는 재귀 드롭아웃이나 후처리 클러스터링 단계와 같은 정규화 기법을 사용하지 않아도 우수한 성능를 달성하여 아키텍처 자체의 내재적 강건성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.