QUICK REVIEW

[논문 리뷰] Raw Waveform-based Speech Enhancement by Fully Convolutional Networks

Szu‐Wei Fu, Yu Tsao|arXiv (Cornell University)|2017. 03. 07.

Speech and Audio Processing참고 문헌 28인용 수 35

한 줄 요약

이 논문은 스펙트럼 도메인 처리를 회피하여 고주파 성분을 더 잘 유지할 수 있도록, 엔드 투 엔드로 원시 파형 기반 음성 향상에 대한 완전 컨볼루션 네트워크(FCN)를 제안한다. FCN은 파arameter 수가 단지 0.2%에 불과함에도 불구하고 STOI 및 PESQ 점수에서 로그 파wer 스펙트럼(LPS)-기반 DNN 및 CNN 모델을 능가하며, 노이즈가 있는 음성에서 더 뛰어난 이해 가능성과 품질 복원 능력을 보여준다.

ABSTRACT

This study proposes a fully convolutional network (FCN) model for raw waveform-based speech enhancement. The proposed system performs speech enhancement in an end-to-end (i.e., waveform-in and waveform-out) manner, which dif-fers from most existing denoising methods that process the magnitude spectrum (e.g., log power spectrum (LPS)) only. Because the fully connected layers, which are involved in deep neural networks (DNN) and convolutional neural networks (CNN), may not accurately characterize the local information of speech signals, particularly with high frequency components, we employed fully convolutional layers to model the waveform. More specifically, FCN consists of only convolutional layers and thus the local temporal structures of speech signals can be efficiently and effectively preserved with relatively few weights. Experimental results show that DNN- and CNN-based models have limited capability to restore high frequency components of waveforms, thus leading to decreased intelligibility of enhanced speech. By contrast, the proposed FCN model can not only effectively recover the waveforms but also outperform the LPS-based DNN baseline in terms of short-time objective intelligibility (STOI) and perceptual evaluation of speech quality (PESQ). In addition, the number of model parameters in FCN is approximately only 0.2% compared with that in both DNN and CNN.

연구 동기 및 목표

로그 파워 스펙트럼(LPS)과 같은 스펙트럼 표현에 의존하는 기존 음성 향상 방법의 한계를 해결하기 위해, 고주파 성분을 왜곡할 수 있는 요소를 제거하고자 한다.
원시 파형을 직접 모델링하여 노이즈가 있는 환경에서 음성의 이해 가능성과 품질을 향상시키고자 한다.
DNN 및 CNN 기반 모델 대비 성능을 유지하거나 향상시키면서도 모델 복잡도와 파arameter 수를 줄이고자 한다.
완전 컨볼루션 네트워크(FCN)가 음성 신호의 국소적 시간 구조를 얼마나 잘 유지하는지 탐구하고자 한다.
엔드 투 엔드 파형 처리가 기존의 두 단계로 나누어지는 접근 방식보다 음성 향상 작업에서 더 나은 성능을 낼 수 있음을 입증하고자 한다.

제안 방법

제안된 모델은 완전히 컨볼루션 레이어(완전 연결 레이어 없음)만을 사용하여 원시 음성 파형을 직접 처리함으로써 입력 파형에서 출력 향상 파형에 이르는 엔드 투 엔드 학습을 가능하게 한다.
감지 범위를 늘리되 파arameter 수를 증가시키지 않기 위해 확장된 컨볼루션(dilated convolutions)을 활용하여 장거리 의존성을 효과적으로 모델링한다.
향상된 파형과 정제된 기준 파형 간의 평균 제곱오차(MSE) 손실을 사용하여 네트워크를 훈련시킨다.
모델은 완전 컨볼루션 아키텍처를 갖추어 변동 길이의 입력 시퀀스를 처리할 수 있고, 네트워크 전반에서 공간(시간) 해상도를 유지한다.
세부적인 시간 구조를 유지하기 위해 풀링 레이어를 회피함으로써, 특히 고주파 성분에서의 세밀한 세부 정보를 보존한다.
중간 단계의 스펙트럼 표현이 필요 없도록 원시 파형 쌍(노이즈가 있는 것 대비 정제된 것)으로 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

RQ1완전 컨볼루션 네트워크(FCN)는 스펙트럼 변환 없이 원시 파형에서 직접 엔드 투 엔드 음성 향상을 효과적으로 수행할 수 있는가?
RQ2LPS 기반 DNN 및 CNN 모델과 비교해 FCN 아키텍처가 스펙트럼 특징을 기반으로 하는 모델보다 고주파 성분을 더 잘 유지하는가?
RQ3FCN은 기준 모델 대비 성능을 유지하거나 향상시키면서 얼마나 모델 복잡도(파arameter 수)를 줄일 수 있는가?
RQ4STOI 및 PESQ와 같은 목적적 지표에서 FCN 기반 향상은 LPS 기반 DNN 및 CNN 기반 모델과 비교해 어떻게 성능을 내는가?
RQ5FCN에서 완전 연결 레이어가 없는 것이 음성 신호의 국소적 시간 구조를 더 잘 보존하고 일반화 능력을 향상시키는 데 기여하는가?

주요 결과

FCN 모델은 LPS 기반 DNN 기준 모델보다 더 높은 단기 목표 이해 가능성(STOI) 및 음성 품질의 주관적 평가(PESQ) 점수를 달성한다.
FCN 모델은 LPS 기반 DNN 및 CNN 모델이 스펙트럼 특징을 기반으로 하여 약하게 복원하는 경향이 있는 고주파 성분을 효과적으로 복원한다.
FCN의 모델 파arameter 수는 DNN 및 CNN 기준 모델의 약 0.2%에 불과하여 모델 복잡도를 크게 감소시킨다.
FCN은 LPS 기반 DNN 기준 모델보다 STOI 및 PESQ 모두에서 뛰어난 성능을 보이며, 엔드 투 엔드 파형 처리의 우수성을 입증한다.
완전 컨볼루션 아키텍처는 완전 연결 레이어가 있는 모델보다 국소적 시간 구조를 더 효과적으로 유지하며, 특히 고주파 영역에서 유의미한 차이를 보인다.
최소한의 파arameter 수로도 웨이브폼 기반 음성 향상 분야에서 최고 성능을 달성하여 높은 효율성과 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.