[논문 리뷰] Monaural Speech Enhancement with Recursive Learning in the Time Domain
이 논문은 시간 도메인 단일 귀 음성 향상 네트워크인 RTNet를 제안하며, 재귀적 학습을 통해 파라미터 효율성과 성능을 향상시킨다. 단계 순환 네트워크, 컨volutional 오토에인코더, 게이팅된 선형 유닛을 통합함으로써 RTNet는 TIMIT 코퍼스에서 최신 기준보다 뛰어난 PESQ 및 STOI 점수를 달성한다.
In this paper, we propose a type of neural network with recursive learning in the time domain called RTNet for monaural speech enhancement, where the proposed network consists of three principal components. The first part is called stage recurrent neural network, which is proposed to effectively aggregate the deep feature dependencies across different stages with a memory mechanism and also remove the interference stageby-stage. The second part is the convolutional auto-encoder. The third part consists of a series of concatenated gated linear units, which are capable of facilitating the information flow and gradually increasing the receptive fields. Recursive learning is adopted to significantly improve the parameter efficiency and therefore, the number of trainable parameters is effectively reduced without sacrificing its performance. The experiments are conducted on TIMIT corpus. Experimental results demonstrate that the proposed network achieves consistently better performance in both PESQ and STOI scores than two advanced time domain-based baselines in different conditions. The code is provided at https://github.com/Andong-Li-speech/RTNet.
연구 동기 및 목표
- 기존 시간 도메인 음성 향상 네트워크에서 높은 파라미터 수와 제한된 특징 의존성 모델링 문제를 해결하기 위해.
- 네트워크 단계 간 깊은 시간적 의존성을 효과적으로 캡처하여 음성 향상 성능을 향상시키기 위해.
- 재귀적 학습 메커니즘을 통해 모델 복잡성을 줄이되 성능을 훼손하지 않기 위해.
- 엔드 투 엔드 음성 향상 아키텍처에서 정보 흐름과 수용 영역 확장을 향상시키기 위해.
제안 방법
- 제안된 RTNet는 메모리 메커니즘을 사용하여 단계 간 깊은 특징 의존성을 집계하고 간섭을 단계적으로 억제하는 단계 순환 신경망을 활용한다.
- 입력 음성 신호의 시간 도메인에서 압축된 표현을 학습하기 위해 컨volutional 오토에인코더를 사용한다.
- 정보 흐름을 촉진하고 점차적으로 수용 영역을 확장하기 위해 연속된 게이팅된 선형 유닛의 시리즈를 도입한다.
- 모든 네트워크에 걸쳐 재귀적 학습을 적용하여 학습 가능한 파라미터 수를 줄이면서도 성능을 유지하거나 향상시킨다.
- 시간 도메인 손실 목표 함수를 사용하여 TIMIT 코퍼스에서 엔드 투 엔드로 모델을 훈련시킨다.
- 모델은 주파수 도메인 변환을 피하기 위해 원시 웨이브포맷을 직접 처리하도록 설계되어 있다.
실험 결과
연구 질문
- RQ1시간 도메인 신경망에서 재귀적 학습이 음성 향상 성능을 떨어뜨리지 않고 파라미터 수를 줄일 수 있는가?
- RQ2단계 순환 네트워크는 단일 귀 음성 향상에서 장거리 시간적 의존성을 얼마나 효과적으로 모델링할 수 있는가?
- RQ3게이팅된 선형 유닛과 오토에인코더의 통합이 특징 표현과 향상 품질을 얼마나 향상시키는가?
- RQ4다양한 노이즈 조건에서 RTNet는 고급 시간 도메인 기준 대비 PESQ 및 STOI 측정치에서 어떻게 비교되는가?
주요 결과
- RTNet는 TIMIT 코퍼스에서 다양한 노이즈 조건에서 두 개의 고급 시간 도메인 기준 대비 일관되게 높은 PESQ 점수를 달성한다.
- 모델은 더 뛰어난 STOI 점수를 보이며, 개선된 음성 가독성과 품질을 나타낸다.
- 재귀적 학습의 사용은 학습 가능한 파라미터 수를 크게 줄였지만 높은 성능를 유지한다.
- 단계 순환 네트워크는 단계별로 깊은 특징 의존성을 효과적으로 캡처하고 간섭을 억제한다.
- 게이팅된 선형 유닛과 오토에인코더의 조합은 정보 흐름 향상과 수용 영역 증가를 촉진한다.
- RTNet의 코드는 재현성과 향후 연구를 위해 GitHub에 공개되어 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.