Skip to main content
QUICK REVIEW

[논문 리뷰] Highway Long Short-Term Memory RNNs for Distant Speech Recognition

Yu Zhang, Guoguo Chen|arXiv (Cornell University)|2015. 10. 30.
Speech Recognition and Synthesis참고 문헌 19인용 수 27
한 줄 요약

이 논문은 깊은 신경망에서 기울기 소실 문제를 완화하기 위해 인접한 레이어의 메모리 셀 간에 게이트가 있는 직접 연결을 갖는 하이웨이 장기 단기 기억(LSTM) RNN을 제안한다. 이로 인해 더 깊고 안정적인 학습이 가능해졌으며, AMI 원거리 음성 인식(SDM) 개발/평가 세트에서 43.9%/47.7%의 새로운 최고 성능(WER)을 달성했다. 이는 DNN보다 15.7% 상대적으로, DLSTM보다 5.3% 상대적으로 우수한 성능이며, 특히 시퀀스 학습과 하이웨이 연결에 대한 드롭아웃 적용으로 인해 유의미한 성능 향상을 보였다.

ABSTRACT

In this paper, we extend the deep long short-term memory (DLSTM) recurrent neural networks by introducing gated direct connections between memory cells in adjacent layers. These direct links, called highway connections, enable unimpeded information flow across different layers and thus alleviate the gradient vanishing problem when building deeper LSTMs. We further introduce the latency-controlled bidirectional LSTMs (BLSTMs) which can exploit the whole history while keeping the latency under control. Efficient algorithms are proposed to train these novel networks using both frame and sequence discriminative criteria. Experiments on the AMI distant speech recognition (DSR) task indicate that we can train deeper LSTMs and achieve better improvement from sequence training with highway LSTMs (HLSTMs). Our novel model obtains $43.9/47.7\%$ WER on AMI (SDM) dev and eval sets, outperforming all previous works. It beats the strong DNN and DLSTM baselines with $15.7\%$ and $5.3\%$ relative improvement respectively.

연구 동기 및 목표

  • 원거리 음성 인식에 사용되는 깊은 LSTM 네트워크에서 기울기 소실 문제를 해결하기 위해.
  • 인접한 레이어의 메모리 셀 간에 게이트가 있는 직접 연결을 도입하여 더 깊은 LSTM 아키텍처의 학습을 가능하게 하기 위해.
  • 리버버버레이션과 겹침 음성 등 도전적인 원거리 음성 인식 작업에서 정보 흐름과 학습 안정성을 향상시켜 성능을 향상시키기 위해.
  • 전체 맥락을 활용하면서도 낮은 지연 시간을 유지하는 지연 시간 제어 양방향 LSTM(LC-BLSTM)을 개발하기 위해.
  • 특히 드롭아웃과 결합했을 때 하이웨이 연결이 효과적인 시퀀스 분류 학습의 효과를 입증하기 위해.

제안 방법

  • 인접한 LSTM 레이어의 메모리 셀 간에 하이웨이 연결을 도입하여 정보 흐름을 차단 없이 가능하게 하고 기울기 소실 문제를 완화한다.
  • 학습 가능한 게이트 메커니즘을 사용하여 하이웨이 연결을 통한 정보 흐름을 제어하고 신호의 적응적 라우팅을 가능하게 한다.
  • 학습 중 하이웨이 연결에 드롭아웃을 적용하여 활성화를 동적으로 조절하고 일반화 능력을 향상시킨다.
  • 미리 정해진 프레임 수 이내의 미래 맥락만 허용하는 지연 시간 제어 양방향 LSTMs(LC-BLSTM)를 제안하여 지연 시간을 줄이면서도 성능 유지를 한다.
  • 모델 최적화를 위해 프레임 수준의 교차 엔트로피와 시퀀스 수준의 분류 학습(sMBR 등)을 모두 사용한다.
  • 효율적인 학습을 위해 CNTK 툴킷을 사용하며, 재현 가능성을 위해 공개된 도구를 제공한다.

실험 결과

연구 질문

  • RQ1LSTM 레이어 간에 게이트가 있는 하이웨이 연결을 도입하면 원거리 음성 인식에서 학습 깊이와 성능 향상에 상당한 기여를 할 수 있는가?
  • RQ2하이웨이 연결의 도입이 깊은 LSTM 모델에서 시퀀스 분류 학습의 효과를 향상시키는가?
  • RQ3하이웨이 연결에 드롭아웃을 적용하면 원거리 음성 인식 작업에서 모델의 일반화 능력과 WER에 어떤 영향을 미치는가?
  • RQ4지연 시간 제어 양방향 LSTMs는 전체 어휘를 고려한 완전한 주변 맥락 BLSTM과 유사한 성능을 달성하면서도 낮은 추론 지연 시간을 유지할 수 있는가?
  • RQ5제안된 HLSTM 아키텍처가 AMI SDM 원거리 음성 인식 벤치마크에서 표준 DNN, CNN, DLSTM보다 우수한 성능을 보일 수 있는가?

주요 결과

  • 드롭아웃를 적용한 제안된 하이웨이 LSTM(HLSTM)은 AMI SDM 평가 세트에서 WER 47.7%를 달성했으며, 이는 DLSTM 베이스라인 대비 5.3% 상대적 향상이다.
  • HLSTM 모델은 DNN 베이스라인 대비 WER를 15.7% 상대적으로 감소시켜 도전적인 원거리 음성 인식 작업에서 뚜렷한 성능 향상을 보였다.
  • 더 깊은 HLSTM 네트워크(8층)는 겹침이 있는 상황에서도 안정적인 성능(WER 50.7%)을 유지하지만, 표준 LSTM은 깊이가 증가할수록 성능이 크게 떨어진다(WER 52.6%).
  • 시퀀스 학습은 드롭아웃를 적용한 3층 HLSTM에서 기존 LSTM 대비 5.3% 상대적 WER 향상을 가져왔고, 이는 표준 LSTM의 경우 3%에 그치는 바, 하이웨이 연결이 시퀀스 학습의 효과를 더 크게 향상시킨다.
  • LC-BLSTM 변종은 낮은 지연 시간을 유지하면서도 효율적인 학습과 디코딩을 가능하게 하여, 맥락 민감성 청크 BLSTM보다 빠른 속도와 뛰어난 성능을 보였다.
  • 이 모델은 AMI(SDM) 개발 및 평가 세트에서 기록된 바 가장 낮은 WER 43.9%/47.7%를 달성하여 이 작업의 새로운 최고 성능을 수립했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.