QUICK REVIEW

[논문 리뷰] Phased LSTM: Accelerating Recurrent Network Training for Long or Event-based Sequences

Daniel Neil, Michael Pfeiffer|arXiv (Cornell University)|2016. 10. 29.

Time Series Analysis and Forecasting참고 문헌 24인용 수 211

한 줄 요약

Phased LSTM은 학습 가능한 리드믹 오실레이터에 의해 제어되는 타임 게이트로 LSTM을 확장하여 희소하고 불규칙한 업데이트를 가능하게 하고 긴 시퀀스나 이벤트 기반 시퀀스에서 더 빠른 수렴을 달성한다. 이는 비동기 입력을 처리하고 런타임 계산을 줄이면서도 종종 정확도를 향상시킨다.

ABSTRACT

Recurrent Neural Networks (RNNs) have become the state-of-the-art choice for extracting patterns from temporal sequences. However, current RNN models are ill-suited to process irregularly sampled data triggered by events generated in continuous time by sensors or other neurons. Such data can occur, for example, when the input comes from novel event-driven artificial sensors that generate sparse, asynchronous streams of events or from multiple conventional sensors with different update intervals. In this work, we introduce the Phased LSTM model, which extends the LSTM unit by adding a new time gate. This gate is controlled by a parametrized oscillation with a frequency range that produces updates of the memory cell only during a small percentage of the cycle. Even with the sparse updates imposed by the oscillation, the Phased LSTM network achieves faster convergence than regular LSTMs on tasks which require learning of long sequences. The model naturally integrates inputs from sensors of arbitrary sampling rates, thereby opening new areas of investigation for processing asynchronous sensory events that carry timing information. It also greatly improves the performance of LSTMs in standard RNN applications, and does so with an order-of-magnitude fewer computes at runtime.

연구 동기 및 목표

센서나 뉴런으로부터의 불규칙하게 샘플링된 시간 데이터를 학습할 수 있도록 동기를 부여하고 학습을 가능하게 한다.
학습 가능한 타임 게이트로 LSTM을 확장하여 리드믹 순환의 열린(open) 구간에서만 업데이트가 일어나도록 한다.
정확도를 희생하지 않으면서 긴 시퀀스 학습에 대한 수렴 속도와 효율성을 향상시킨다.
이벤트 기반 센서, 다중 속도 융합 및 비동기 데이터 스트림에 대한 적용 가능성을 보여준다.

제안 방법

기간 τ, 열린 비율 r_on, 위상 s를 갖는 매개변수화된 진동에 의해 제어되는 시간 게이트 k_t를 LSTM 유닛에 추가한다.
시간 게이트를 φ_t = ((t−s) mod τ)/τ인 위상에 대한 구간선형 함수로 정의하여 k_t가 활성화될 때만 업데이트가 가능하도록 한다.
LSTM 셀 업데이트를 k_t를 포함하도록 재작성하여 c_j 및 h_j 업데이트가 업데이트와 이전 상태 보유 사이를 보간하도록 한다.
학습 가능한 매개변수에는 τ와 s(주기 및 위상); r_on은 실험 중 0.05로 고정된다.
k_j가 열려 있을 때 비정형 시점 t_j에서 업데이트를 허용하여 비동기적으로 샘플링된 입력의 처리를 가능하게 한다.
이 접근법은 학습 가능한 게이트가 있는 푸리에 유사 변환이자 그래디언트 숏컷의 한 형태로 토론적으로 해석된다.
Adam 최적화와 Theano/Lasagne 프레임워크를 사용하여 다양한 과제에 걸쳐 학습한다.

실험 결과

연구 질문

RQ1리듬적 시간 게이트가 RNN이 불규칙하게 샘플링되거나 이벤트 기반 데이터에서 학습하되 정확도를 희생하지 않도록 할 수 있는가?
RQ2Phased LSTMs가 긴 시퀀스나 다중 속도 센서 데이터에서 표준 LSTM보다 더 빠르게 수렴하고 런타임 계산량이 적게 필요하는가?
RQ3주기적 열린(open) 구간(τ, r_on, s)이 학습 및 기억 유지에 어떤 영향을 미치는가?
RQ4Phased LSTMs가 서로 다른 샘플링 속도를 가진 센서의 입력(audio/video)과 신경모픽 이벤트 스트림의 입력을 효과적으로 융합할 수 있는가?
RQ5시간 게이트 매개변수의 학습 여부 또는 고정 여부가 과제 전반의 성능에 미치는 영향은 무엇인가?

주요 결과

Phased LSTM은 전통적인 LSTM이 감소하는 표준 및 불규칙 샘플링 조건에서도 정확도를 유지하거나 향상시킨다.
네트워크 업데이트는 열린 구간에서만 발생하여 런타임 업데이트를 훨씬 줄이며, N-MNIST 작업에서 뉴런당 평균 약 5% 수준이다.
비동기 샘플링 및 다주파수 작업에서 주파수 구분에 대해 더 빠른 수렴과 더 높은 정확도가 관찰된다.
더 긴 τ 값은 추가 작업에서 긴 시퀀스 학습을 가속화하여 기억 창(memory window) 효과를 시사한다.
N-MNIST에서 Phased LSTM은 단일 에폭 성능이 더 높고 BN-LSTM 및 CNN 대조군에 비해 훈련 시간이 단축되었다.
GRID 데이터로의 립 리딩에서 입력 샘플링에 맞춰 시간 게이트를 정렬한 Phased LSTM을 사용하여 더 빠른 수렴과 경쟁력 있는 정확도를 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.