QUICK REVIEW

[논문 리뷰] Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks

Ying Zhang, Mohammad Pezeshki|arXiv (Cornell University)|2017. 01. 10.

Speech Recognition and Synthesis참고 문헌 27인용 수 72

한 줄 요약

이 논문은 recurrent 층을 제거한 엔드-투-엔드 CNN-CTC 프레임워크를 제안하고, TIMIT에서의 음소 인식에서 경쟁력 있는 성능을 보이며 LSTM보다 빠른 학습을 보여준다.

ABSTRACT

Convolutional Neural Networks (CNNs) are effective models for reducing spectral variations and modeling spectral correlations in acoustic features for automatic speech recognition (ASR). Hybrid speech recognition systems incorporating CNNs with Hidden Markov Models/Gaussian Mixture Models (HMMs/GMMs) have achieved the state-of-the-art in various benchmarks. Meanwhile, Connectionist Temporal Classification (CTC) with Recurrent Neural Networks (RNNs), which is proposed for labeling unsegmented sequences, makes it feasible to train an end-to-end speech recognition system instead of hybrid settings. However, RNNs are computationally expensive and sometimes difficult to train. In this paper, inspired by the advantages of both CNNs and the CTC approach, we propose an end-to-end speech framework for sequence labeling, by combining hierarchical CNNs with CTC directly without recurrent connections. By evaluating the approach on the TIMIT phoneme recognition task, we show that the proposed model is not only computationally efficient, but also competitive with the existing baseline systems. Moreover, we argue that CNNs have the capability to model temporal correlations with appropriate context information.

연구 동기 및 목표

CNN과 CTC를 활용하여 순환 신경망 없이 엔드-투-엔드 음성 인식을 동기부여한다.
스택된 합성곱 및 컨텍스트 윈도를 통해 시간적 의존성을 포착하는 심층 CNN 아키텍처를 개발한다.
TIMIT 음소 인식 태스크에서 성능을 평가하고 LSTM 기반 베이스라인과 비교한다.
깊이, 필터 크기, 활성화 등의 아키텍처 요소가 성능 및 학습 효율성에 미치는 영향을 식별한다.

제안 방법

스펙트로그램 유사 특징에 대해 풀링을 주파수 축에 적용하는 심층 2D 컨볼루션 신경망을 설계한다.
시퀀스 길이를 보존하기 위해 패딩을 사용하여 시간과 주파수 전역으로 2D 컨볼루션을 적용한다.
ReLU, PReLU, Maxout 활성화 및 첫 번째 컨볼루션 층 뒤의 맥스풀링을 실험한다.
출력 시퀀스를 명시적 정렬 없이 생성하기 위해 상단에 CTC 층을 부착한다.
Adam으로 학습하고 SGD로 미세 조정하며 드롭아웃과 L2 정규화를 포함한다.
CTC 출력에 대해 테스트 시 최적 경로 디코딩을 사용한다.

실험 결과

연구 질문

RQ1깊은 CNN-CTC가 순환 층 없이 TIMIT에서 경쟁력 있는 음소 인식을 달성할 수 있는가?
RQ2아키텍처 선택(깊이, 필터 크기, 활성화 함수)이 성능 및 학습 효율성에 어떤 영향을 미치는가?
RQ3CNN-CTC 학습이 음소 수준 태스크에서 RNN/LSTM 기반 엔드-투-엔드 접근법보다 더 빠르고 안정적인가?

주요 결과

모델	파라미터 수	개발 PER	테스트 PER
BiLSTM-3L-250H	3.8M	-	18.6%
BiLSTM-5L-250H	6.8M	-	18.4%
TRANS-3L-250H	4.3M	-	18.3%
CNN-(3,5)-10L-ReLU	4.3M	17.4%	19.3%
CNN-(3,5)-10L-PReLU	4.3M	17.2%	18.9%
CNN-(3,5)-6L-maxout	4.3M	18.7%	21.2%
CNN-(3,5)-8L-maxout	4.3M	17.7%	19.8%
CNN-(3,3)-10L-maxout	4.3M	18.4%	19.9%
CNN-(3,5)-10L-maxout	4.3M	16.7%	18.2%

CNN-CTC 모델은 TIMIT 코어 테스트 세트에서 18.2% 음소 오류율을 달성하며 LSTM 및 전이 요건 베이스라인과 경쟁적이다.
더 깊은 아키텍처와 더 큰 필터 크기가 성능을 향상시키며, CNN-(3,5)-10L-maxout은 테스트 PER 18.2%, 개발 PER 16.7%를 달성(best Dev PER: 16.7%).
Maxout 활성화가 이 설정에서 ReLU 및 PReLU보다 더 나은 성능을 보인다.
CNN 모델은 TIMIT에서 비교 가능한 LSTM 모델보다 약 2.5배 빠르게 학습한다(추가 최적화 없이).
첫 번째 층 이후에 주로 주파수 축으로의 풀링은 시간 해상도를 해치지 않으면서 스펙트럼 변이를 줄이는 데 도움을 준다.
정규화(드롭아웃, 가중치 감쇠)는 TIMIT와 같은 작은 데이터 세트에서 일반화에 중요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.