QUICK REVIEW

[논문 리뷰] Speech and Speaker Recognition from Raw Waveform with SincNet

Mirco Ravanelli, Yoshua Bengio|arXiv (Cornell University)|2018. 12. 13.

Speech Recognition and Synthesis참고 문헌 29인용 수 28

한 줄 요약

이 논문은 원시 음성 웨이브포맷을 직접 처리할 수 있도록 첫 번째 레이어 필터를 학습 가능한 저역 및 고역 컷오프 주파수를 가진 싱크 함수로 매개변수화하는 SincNet이라는 새로운 컨볼루션 신경망을 소개한다. 물리적 해석 가능성과 파rameter 수를 줄임으로써 SincNet은 표준 CNN보다 더 빠른 수렴 속도, 더 높은 성능 및 더 높은 계산 효율성을 보이며, 특히 노이즈가 있는 환경에서 음성 및 발화자 인식 작업에서 유의미한 성능 향상을 이룬다.

ABSTRACT

Deep neural networks can learn complex and abstract representations, that are progressively obtained by combining simpler ones. A recent trend in speech and speaker recognition consists in discovering these representations starting from raw audio samples directly. Differently from standard hand-crafted features such as MFCCs or FBANK, the raw waveform can potentially help neural networks discover better and more customized representations. The high-dimensional raw inputs, however, can make training significantly more challenging. This paper summarizes our recent efforts to develop a neural architecture that efficiently processes speech from audio waveforms. In particular, we propose SincNet, a novel Convolutional Neural Network (CNN) that encourages the first layer to discover meaningful filters by exploiting parametrized sinc functions. In contrast to standard CNNs, which learn all the elements of each filter, only low and high cutoff frequencies of band-pass filters are directly learned from data. This inductive bias offers a very compact way to derive a customized front-end, that only depends on some parameters with a clear physical meaning. Our experiments, conducted on both speaker and speech recognition, show that the proposed architecture converges faster, performs better, and is more computationally efficient than standard CNNs.

연구 동기 및 목표

MFCC나 FBANK와 같은 수작업으로 만든 특징 없이 원시 음성 웨이브포맷을 직접 처리할 수 있는 신경망 아키텍처를 개발하는 것.
필터 매개변수화를 통해 유도적 편향을 도입하여 깊은 네트워크 학습에서 고차원 원시 입력 문제를 해결하는 것.
싱크 함수에서 유도된 대역통과 응답을 갖는 첫 번째 레이어 필터를 제약함으로써 필터의 해석 가능성과 학습 효율성을 향상시키는 것.
제안된 아키텍처를 표준 조건과 노이즈가 있는 조건에서 음성 인식 및 발화자 인식 작업에 평가하는 것.
SincNet이 표준 CNN보다 수렴 속도, 정확도 및 계산 효율성 면에서 뛰어나다는 것을 입증하는 것.

제안 방법

SincNet은 표준 학습 가능한 FIR 필터 대신 두 개의 학습 가능한 매개변수인 저역 및 고역 컷오프 주파수를 사용하는 매개변수화된 싱크 함수로 구성된 대역통과 필터를 사용한다.
필터 응답은 $ g[n,f_1,f_2] = 2f_2 \text{sinc}(2\pi f_2 n) - 2f_1 \text{sinc}(2\pi f_1 n) $로 정의되며, 물리적으로 의미 있는 해석 가능한 필터 형상 보장.
첫 번째 컨볼루션 레이어는 이러한 매개변수화된 필터를 원시 웨이브포맷에 적용하여 학습 가능한 파rameter 수를 줄이고 최적화 안정성을 향상시킨다.
표준 backpropagation를 사용해 원시 웨이브포맷에서 엔드 투 엔드로 네트워크를 학습하며, TIMIT 및 DIRHA 데이터셋에서 성능을 평가한다.
네트워크가 잡음이나 스펙트럼 왜곡과 같은 작업 특성에 얼마나 잘 적응하는지 분석하기 위해 필터 응답을 분석한다.
원시 웨이브포맷과 FBANK 특징을 사용한 표준 CNN과 비교하여 WER, PER, EER 등의 지표로 평가한다.

실험 결과

연구 질문

RQ1원시 웨이브포맷을 직접 처리하는 CNN이 MFCC나 FBANK와 같은 수작업 특징을 사용하는 모델보다 더 높은 성능을 낼 수 있는가?
RQ2첫 번째 레이어 필터를 매개변수화된 싱크 함수로 제약함으로써 학습 수렴 속도와 모델 효율성이 향상되는가?
RQ3SincNet은 DIRHA 데이터셋에서와 같이 잡음과 반사로 인한 어려운 조건에 얼마나 잘 일반화되는가?
RQ4SincNet에서 학습된 필터가 부패한 주파수 대역을 피하는 등 작업 특성에 맞는 신호 특성(예: 잡음 대역 회피)을 얼마나 잘 반영하는가?
RQ5원시 입력을 사용할 때조차도 싱크 기반 필터의 유도적 편향이 표준 CNN을 능가하는 데 충분한가?

주요 결과

TIMIT 데이터셋에서 SincNet은 17.2%의 문자 오류율(PER)을 기록하여 원시 웨이브포맷으로 학습한 CNN(18.1%)과 FBANK 특징을 사용한 모델(18.3%)보다 뛰어난 성능을 보였다.
노이즈가 있는 DIRHA 데이터셋에서 SincNet은 37.2%의 단어 오류율(WER)을 기록하여 CNN-Raw와 CNN-FBANK 모두가 기록한 40.1%보다 유의미하게 높았다.
SincNet은 표준 CNN보다 더 빠르게 수렴했으며, 단지 1시간의 학습 후에 부패한 2.0–2.5 kHz 주파수 대역을 피하는 것을 학습했다. 반면 표준 CNN은 더 오랜 시간이 소요되었다.
Librispeech에서의 발화자 검증 작업에서 SincNet은 1% 미만의 동일 오류율(EER)을 달성했으며, 표준 CNN 대비 11%의 상대적 향상을 보였다.
SincNet에서 학습된 필터는 더 해석 가능했고, 잡음 대역을 피하는 등 작업 특성에 맞게 적응했으며, 표준 CNN보다 더 넓은 스펙트럼 커버리지를 유지했다.
SincNet의 상대적 성능 향상은 청결한 조건(4%)보다 노이즈가 있는 조건(6%)에서 더 크게 나타나, 파손에 대한 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.