QUICK REVIEW

[논문 리뷰] Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition

Haşim Sak, Andrew Senior|arXiv (Cornell University)|2014. 02. 05.

Speech Recognition and Synthesis참고 문헌 15인용 수 859

한 줄 요약

이 논문은 대규모 어휘 어휘 인식에서 파rameter 효율성과 성능을 향상시키기 위해 순환 및 비순환 투영층을 갖춘 새로운 LSTM 기반 RNN 아키텍처를 제안한다. 제안된 모델은 DNN 및 표준 LSTM보다 빠른 수렴 속도를 보이며, 특히 큰 출력 스케일 작업(예: 8000개의 문맥 의존 상태)에서 최신 기술 성능을 달성한다.

ABSTRACT

Long Short-Term Memory (LSTM) is a recurrent neural network (RNN) architecture that has been designed to address the vanishing and exploding gradient problems of conventional RNNs. Unlike feedforward neural networks, RNNs have cyclic connections making them powerful for modeling sequences. They have been successfully used for sequence labeling and sequence prediction tasks, such as handwriting recognition, language modeling, phonetic labeling of acoustic frames. However, in contrast to the deep neural networks, the use of RNNs in speech recognition has been limited to phone recognition in small scale tasks. In this paper, we present novel LSTM based RNN architectures which make more effective use of model parameters to train acoustic models for large vocabulary speech recognition. We train and compare LSTM, RNN and DNN models at various numbers of parameters and configurations. We show that LSTM models converge quickly and give state of the art speech recognition performance for relatively small sized models.

연구 동기 및 목표

대규모 어휘 음성 인식에서 표준 LSTM 네트워크의 확장성 및 파rameter 효율성 한계를 해결한다.
시퀀스 모델링 중 기존 RNN에 내재된 기울기 소실 및 기울기 폭발 문제를 극복한다.
표준 LSTM이 성능을 낮추는 큰 출력 공간(예: 8000개의 문맥 의존 상태)에서 인식 정확도를 향상시킨다.
LSTM 기반 모델이 이전에 DNN이 지배하던 대규모 음성 인식 작업에서 DNN을 능가할 수 있음을 입증한다.
순환 및 비순환 투영층과 같은 새로운 아키텍처 구성 요소를 설계하여, 순환 연결을 늘리지 않고도 모델의 유연성과 성능을 향상시킨다.

제안 방법

장기적 의존성을 유지하면서 순환 파rameter 수를 줄이기 위해 LSTM 층과 출력 층 사이에 순환 투영층을 도입한다.
LSTM 층 뒤에 비순환 투영층을 추가하여 순환 연결을 추가하지 않고도 모델 용량을 증가시켜 파rameter 할당의 유연성을 높인다.
LSTM 유닛에서 세포 입력 및 출력 유닛에 하이퍼볼릭 탄젠트(tanh) 활성화 함수를 사용하고, 입력, 출력, 기억 게이트에 로지스틱 시그모이드를 사용한다.
기억 셀에서 게이트로의 피크홀 연결을 적용하여 출력 생성의 시간 정밀도를 향상시킨다.
비분할 시퀀스 데이터에서의 엔드 투 엔드 학습을 위해 연결주의적 시간 분류(CTC)를 적용하여 음성 모델링과 언어 모델링을 동시에 최적화한다.
입력으로 25ms 로그-필터뱅크 에너지 특징(40차원)을 사용하고, 출력 레이블을 5프레임 지연시켜 맥락 인식 능력을 향상시킨다.

실험 결과

연구 질문

RQ1투영층을 갖춘 LSTM 기반 RNN 아키텍처가 대규모 어휘 음성 인식 작업에서 표준 LSTM 및 DNN보다 뛰어나게 성능을 낼 수 있는가?
RQ2순환 및 비순환 투영층은 대규모 음성 모델에서 파rameter 효율성과 인식 정확도에 어떤 영향을 미치는가?
RQ3제안된 아키텍처는 장기 시퀀스 모델링에서 기울기 소실 및 기울기 폭발 문제를 어느 정도 완화하는가?
RQ4순환 및 비순환 투영층을 모두 포함하는 것이 한 종류만 사용하는 것보다 더 뛰어난 성능을 내는가?
RQ5LSTM 모델이 DNN이 이전에 지배하던 대규모 어휘 음성 인식에서 최신 기술 성능을 달성할 수 있는가?

주요 결과

순환 및 비순환 투영층을 모두 갖춘 제안된 LSTM 아키텍처는 표준 LSTM 및 DNN 모델보다 뚜렷이 뛰어나며, 특히 큰 출력 스케일 작업(예: 8000개의 문맥 의존 상태)에서 두각을 나타낸다.
2000개의 문맥 의존 상태 모델에서 LSTM_c1024_r256 구성은 DNN_10w5_5_512_lr256 모델보다 더 낮은 단어 오류율(WER)을 달성하여 DNN보다 우월함을 입증한다.
512개의 기억 셀을 가진 LSTM_c512 모델은 DNN_10w5_2_864_lr256 모델보다 더 뛰어난 성능을 보였으며, 이는 DNN에서의 깊이의 중요성을 강조한다.
제안된 아키텍처는 표준 RNN이 기울기 폭발과 불안정성 문제로 애로를 겪는 것과는 달리 더 빠른 수렴 속도와 더 안정적인 학습을 보였다.
동일한 파rameter 수를 가진 표준 LSTM(LSTM_1024)보다 순환 및 비순환 투영층을 모두 갖춘 LSTM 네트워크(LSTM_1024_256)가 더 높은 프레임 정확도를 달성했다.
결과는 DNN에서 깊이가 매우 중요하다는 것을 시사한다. 은닉층 수를 2개에서 5개로 늘일 경우 성능이 크게 향상되었지만, 심지어 깊은 DNN 모델조차도 제안된 LSTM 아키텍처에 미치지 못했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.