QUICK REVIEW

[논문 리뷰] Residual Convolutional CTC Networks for Automatic Speech Recognition

Yisen Wang, Xuejiao Deng|arXiv (Cornell University)|2017. 02. 24.

Speech Recognition and Synthesis참고 문헌 25인용 수 66

한 줄 요약

이 논문은 잔여 연결과 엔드-투-엔드 CTC 학습을 가진 심층적이고 넓은 RCNN-CTC 아키텍처와, WSJ 및 Tencent Chat 데이터에서 ASR 정확도를 높이기 위한 CTC 기반 시스템 조합을 도입합니다.

ABSTRACT

Deep learning approaches have been widely used in Automatic Speech Recognition (ASR) and they have achieved a significant accuracy improvement. Especially, Convolutional Neural Networks (CNNs) have been revisited in ASR recently. However, most CNNs used in existing work have less than 10 layers which may not be deep enough to capture all human speech signal information. In this paper, we propose a novel deep and wide CNN architecture denoted as RCNN-CTC, which has residual connections and Connectionist Temporal Classification (CTC) loss function. RCNN-CTC is an end-to-end system which can exploit temporal and spectral structures of speech signals simultaneously. Furthermore, we introduce a CTC-based system combination, which is different from the conventional frame-wise senone-based one. The basic subsystems adopted in the combination are different types and thus mutually complementary to each other. Experimental results show that our proposed single system RCNN-CTC can achieve the lowest word error rate (WER) on WSJ and Tencent Chat data sets, compared to several widely used neural network systems in ASR. In addition, the proposed system combination can offer a further error reduction on these two data sets, resulting in relative WER reductions of $14.91\%$ and $6.52\%$ on WSJ dev93 and Tencent Chat data sets respectively.

연구 동기 및 목표

ASR에서 시간적 및 스펙트럼 음성 정보를 포착하기 위해 더 깊은 CNN의 필요성을 제시합니다.
CTC 손실을 사용하여 ASR에 대한 잔여 연결이 있는 매우 깊고 넓은 CNN 아키텍처를 개발합니다.
CTC를 채택하여 프레임 단위 정렬 없이 엔드-투-엔드 학습을 가능하게 합니다.
상호 보완적 서브시스템을 활용하기 위한 새로운 CTC 기반 시스템 조합을 제안합니다.
표준 및 대규모 데이터셋에서 WER 개선을 입증하고 시스템 조합의 이점을 분석합니다.

제안 방법

RCNN-CTC를 제안합니다: 시간-주파수 구조를 모델링하기 위한 잔여 블록이 있는 깊고 넓은(40층 이상) CNN.
큰 초기 합성곱 뒤에 작은 3x3 필터와 배치 정규화 및 ReLU 활성화를 갖는 네 그룹의 ResBlock으로 구성합니다.
사전 정렬된 데이터 없이 음성 프레임을 라벨 시퀀스에 정렬하기 위해 합성곱 신경망 속 CTC 손실로 엔드-투-엔드 학습합니다.
다양한 서브시스템(RCNN-CTC, BLSTM, CLDNN)을 최대 올바른 단어 비율(MCWR) 기준으로 선택하는 CTC 기반 시스템 조합을 도입합니다.
서브시스템 간에 단어 전이 네트워크(WTN)를 정렬하고 시간 정규화한 뒤, 투표 방식(최대 신뢰도)을 적용하여 최종 기록을 생성합니다.
1-best와 N-best 가설을 분석하고 이 설정에서 N-best가 개선되지 않음을 밝혀냅니다.

실험 결과

연구 질문

RQ1매우 깊고 넓은 잔여 CNN에 CTC를 결합한 모델이 기존 CNN/LSTM 기반 ASR 모델을 능가할 수 있습니까?
RQ2엔드-투-엔드 CTC 학습과 잔여 CNN이 WSJ 및 Tencent Chat과 같은 대규모 모바일 데이터에서 더 낮은 WER을 산출합니까?
RQ3이종 서브시스템을 활용하는 CTC 기반 시스템 조합이 단일 RCNN-CTC 모델을 넘어 추가 이익을 제공할 수 있습니까?

주요 결과

RCNN-CTC가 WSJ eval92 및 dev93에서 VGG+CTC, CLDNN+CTC, BLSTM+CTC와 비교하여 단일 시스템 베이스라인 중 가장 낮은 WER을 달성합니다.
제안된 CTC 기반 시스템 조합은 추가적인 WER 감소를 가져와 최상의 단일 시스템 대비 WSJ dev93에서 최대 14.91% 상대 개선 및 Tencent Chat에서 6.52%를 달성합니다.
Tencent Chat에서 RCNN-CTC는 WER 측면에서 다른 단일 시스템(VGG, CLDNN, BLSTM)보다 우수하여 대규모 데이터에서 잔여 연결을 가진 심층 CNN의 이점을 강조합니다.
MCWR 기반 서브시스템 선택은 RCNN-CTC와 BLSTM, CLDNN의 조합을 선호하여 WSJ 및 Tencent Chat 실험에서 가장 좋은 결합 WER를 달성합니다.
N-best 가설을 사용해도 제안된 시스템 조합에서 1-best보다 개선되지 않습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.