Skip to main content
QUICK REVIEW

[논문 리뷰] Residual LSTM: Design of a Deep Recurrent Architecture for Distant Speech Recognition

Jaeyoung Kim, Mostafa El‐Khamy|arXiv (Cornell University)|2017. 01. 10.
Speech Recognition and Synthesis인용 수 34
한 줄 요약

이 논문은 깊은 LSTMs의 훈련을 향상시키기 위해 출력층 간의 공간적 단서 연결을 도입한 잔차LSTM(Residual LSTM)을 제안한다. 새로운 게이트를 추가하는 대신 기존의 LSTM 출력 게이트와 투영 행렬을 재사용함으로써 파라미터를 10% 이상 감소시켰으며, 10층 네트워크를 사용하여 AMI SDM 코퍼스에서 41.0%의 최신 기준 WER를 달성했다. 이는 평탄한(LSTM) 및 하이웨이(LSTM) 모델보다 우수하며, 깊이가 증가함에 따라 훈련 열화 현상이 발생했던 것과는 대조된다.

ABSTRACT

In this paper, a novel architecture for a deep recurrent neural network, residual LSTM is introduced. A plain LSTM has an internal memory cell that can learn long term dependencies of sequential data. It also provides a temporal shortcut path to avoid vanishing or exploding gradients in the temporal domain. The residual LSTM provides an additional spatial shortcut path from lower layers for efficient training of deep networks with multiple LSTM layers. Compared with the previous work, highway LSTM, residual LSTM separates a spatial shortcut path with temporal one by using output layers, which can help to avoid a conflict between spatial and temporal-domain gradient flows. Furthermore, residual LSTM reuses the output projection matrix and the output gate of LSTM to control the spatial information flow instead of additional gate networks, which effectively reduces more than 10% of network parameters. An experiment for distant speech recognition on the AMI SDM corpus shows that 10-layer plain and highway LSTM networks presented 13.7% and 6.2% increase in WER over 3-layer aselines, respectively. On the contrary, 10-layer residual LSTM networks provided the lowest WER 41.0%, which corresponds to 3.3% and 2.8% WER reduction over plain and highway LSTM networks, respectively.

연구 동기 및 목표

  • 시간적 및 공간적 영역에서 기울기 소실/폭발 문제로 인해 매우 깊은 순환 네트워크를 훈련시키는 데 도전하는 것.
  • 장기적 의존성과 모델 깊이가 핵심적인 먼 거리 음성 인식 환경에서 깊은 LSTM 성능을 향상시키는 것.
  • 하이웨이 LSTMs 아키텍처에서 사용되는 중복된 게이트 네트워크를 제거하여 모델 복잡도를 감소시키는 것.
  • 예를 들어 10층 네트워크와 같이 더 깊은 네트워크가 평탄한 및 하이웨이 LSTMs에서 관찰된 성능 열화 없이 더 잘 일반화되도록 하는 것.
  • 기존 LSTM 구성 요소(출력 게이트 및 투영 행렬)를 단서 경로에 재사용하는 것이 훈련 안정성과 효율성을 향상시키는지 탐색하는 것.

제안 방법

  • 내부 메모리 셀 대신 인접한 출력층 간의 공간적 단서 경로를 도입하여 시간적 및 공간적 기울기 흐름을 분리한다.
  • 단서 경로에서 정보 흐름을 제어하기 위해 기존의 LSTM 출력 게이트와 투영 행렬을 재사용하여 추가 학습 가능한 파라미터를 방지한다.
  • 각 층이 단서 경로에 대해 잔차 매핑을 학습하도록 설계하여 최적화를 단순화한다.
  • 출력층 수준에서 잔차 연결을 적용하여 새로운 게이트 네트워크가 필요 없이 신호를 그대로 통과시키는 것과 유사한 방식을 가능하게 한다.
  • 표준 LSTM 셀 구조를 유지하되, 깊이를 따라 기울기 흐름이 유지되도록 단서 연결 논리를 수정한다.
  • 표준 역전파 알고리즘을 사용하여 모델을 훈련시키며, 잔차 연결 덕분에 10층에서도 안정적인 훈련이 가능하다.

실험 결과

연구 질문

  • RQ1출력층 간의 잔차 연결이 먼 거리 음성 인식을 위한 깊은 순환 네트워크에서 훈련 안정성과 성능 향상에 기여할 수 있는가?
  • RQ2기존 LSTM 구성 요소(출력 게이트 및 투영 행렬)를 단서 경로에 재사용하는 것이 복잡도를 감소시키면서도 성능을 유지하거나 향상시킬 수 있는가?
  • RQ3WER 및 훈련 수렴 성능 측면에서 깊은 잔차 LSTMs가 평탄한 및 하이웨이 LSTMs와 비교해 어떻게 성능을 내는가?
  • RQ4잔차 LSTMs가 깊이가 증가함에 따라 관찰된 평탄한 및 하이웨이 LSTMs의 성능 열화를 피할 수 있는가?
  • RQ5잔차 아키텍처가 더 깊은 네트워크에서 더 나은 일반화를 가능하게 하는가, 특히 훈련 데이터가 증가할 경우에 더욱 그렇다면?

주요 결과

  • 10층 잔차 LSTMs는 AMI SDM 코퍼스에서 41.0%의 가장 낮은 WER를 기록했으며, 이는 3층 평탄한 LSTMs 기준 3.3%의 상대적 감소이다.
  • 10층 잔차 LSTMs는 3층 기준 2.2% WER 감소를 기록했고, 반면 10층 평탄한 LSTMs는 비중첩 WER에서 13.7% 악화되었다.
  • 10층 하이웨이 LSTMs는 3층 기준 6.2% WER 증가를 보였으며, 깊이 증가에 따른 훈련 열화 현상을 나타냈다.
  • 잔차 LSTMs는 새로운 게이트를 추가하는 대신 기존 게이트를 재사용함으로써 하이웨이 LSTMs 대비 네트워크 파라미터를 10% 이상 감소시켰다.
  • SDM 및 IHM 훈련 데이터를 병합한 경우, 10층 잔차 LSTMs는 39.3% WER를 달성했으며, 이는 최고의 5층 하이웨이 LSTMs 대비 3.1% 감소한 결과이다.
  • 잔차 LSTMs는 깊이가 증가함에 따라 검증 데이터에서 교차 엔트로피가 향상되어 더 나은 일반화 성능과 함께 훈련 손실이 발생하지 않았으며, 이는 평탄한 및 하이웨이 LSTMs와는 대조된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.