QUICK REVIEW

[논문 리뷰] Dual-path RNN: efficient long sequence modeling for time-domain single-channel speech separation

Yi Luo, Zhuo Chen|arXiv (Cornell University)|2019. 10. 14.

Speech and Audio Processing참고 문헌 36인용 수 50

한 줄 요약

Dual-path RNN(DPRNN)을 도입하여 intra-chunk와 inter-chunk RNN을 번갈아 사용해 매우 긴 시퀀스를 모델링하고 TasNet의 1-D CNN을 대체하여 더 작은 모델로 WSJ0-2mix에서 최첨단 성능을 달성한다.

ABSTRACT

Recent studies in deep learning-based speech separation have proven the superiority of time-domain approaches to conventional time-frequency-based methods. Unlike the time-frequency domain approaches, the time-domain separation systems often receive input sequences consisting of a huge number of time steps, which introduces challenges for modeling extremely long sequences. Conventional recurrent neural networks (RNNs) are not effective for modeling such long sequences due to optimization difficulties, while one-dimensional convolutional neural networks (1-D CNNs) cannot perform utterance-level sequence modeling when its receptive field is smaller than the sequence length. In this paper, we propose dual-path recurrent neural network (DPRNN), a simple yet effective method for organizing RNN layers in a deep structure to model extremely long sequences. DPRNN splits the long sequential input into smaller chunks and applies intra- and inter-chunk operations iteratively, where the input length can be made proportional to the square root of the original sequence length in each operation. Experiments show that by replacing 1-D CNN with DPRNN and apply sample-level modeling in the time-domain audio separation network (TasNet), a new state-of-the-art performance on WSJ0-2mix is achieved with a 20 times smaller model than the previous best system.

연구 동기 및 목표

시간 도메인 음성 분리에서 효과적인 장기 시퀀스 모델링의 필요성에 대한 동기를 부여한다.
긴 시퀀스를 청크로 나누고 로컬 및 글로벌 RNN을 번갈아 적용하는 간단한 아키텍처를 제안한다.
입력 길이가 기하급수적으로 줄어드는 경우(O(sqrt(L)))에도 최적화가 개선되며 성능을 유지한다.
TasNet에서 CNN을 DPRNN으로 대체하면 더 작은 모델로도 최첨단 결과를 얻을 수 있음을 보여준다.

제안 방법

긴 입력을 중첩된 청크로 분할하여 3차원 텐서를 형성한다.
각 청크에 대해 내부-청크 양방향 RNN을 독립적으로 적용하여 로컬 모델링을 수행한다.
청크 간 RNN을 적용하여 글로벌 의존성을 포착하고 발화 수준의 모델링을 수행한다.
각 DPRNN 블록 뒤에 잔차 연결 및 계층 정규화를 사용한다.
중첩-추가(overlap-add)로 여러 DPRNN 블록을 쌓아 시퀀스를 재구성한다.

실험 결과

연구 질문

RQ1듀얼-path RNN 아키텍처가 시간 도메인 음성 분리를 위해 매우 긴 시퀀스를 효과적으로 모델링할 수 있는가?
RQ2내부-청크와 외부-청크 처리의 교대가 고정 수용영역 CNN 기반선 대비 이득을 제공하는가?
RQ3WSJ0-2mix 및 소음 반향 조건에서 DPRNN이 모델 크기와 성능에 어떤 영향을 미치는가?

주요 결과

DPRNN-TasNet은 WSJ0-2mix에서 SI-SNRi를 4.6% 향상시키고 모델 크기는 49% 더 작았던 TCN-TasNet 대비 향상시켰다.
1-D CNN을 DPRNN으로 대체하면 더 작은 모델로도 유사하거나 더 나은 성능을 달성할 수 있으며, 인코더 윈도우가 2 샘플이고 프레임이 30k를 초과할 때 최고의 SI-SNRi를 달성한다.
DPRNN-TasNet는 FurcaNeXt보다 20배 작 은 모델로 WSJ0-2mix에서 새로운 최첨단 SI-SNRi/SDRi를 제시한다.
DPRNN은 소음 반향 조건에서 TCN 기반 모델에 비해 더 높은 SI-SNRi 및 더 낮은 WER로 강한 성능 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.