[论文解读] Phased LSTM: Accelerating Recurrent Network Training for Long or Event-based Sequences
Phased LSTM 在 LSTM 上扩展了一个由可学习的节律振荡器控制的时间门,能够进行稀疏、非规则更新,并在长序列或事件驱动序列上实现更快的收敛。它能处理异步输入并在降低运行时计算量的同时,通常还能提高准确性。
Recurrent Neural Networks (RNNs) have become the state-of-the-art choice for extracting patterns from temporal sequences. However, current RNN models are ill-suited to process irregularly sampled data triggered by events generated in continuous time by sensors or other neurons. Such data can occur, for example, when the input comes from novel event-driven artificial sensors that generate sparse, asynchronous streams of events or from multiple conventional sensors with different update intervals. In this work, we introduce the Phased LSTM model, which extends the LSTM unit by adding a new time gate. This gate is controlled by a parametrized oscillation with a frequency range that produces updates of the memory cell only during a small percentage of the cycle. Even with the sparse updates imposed by the oscillation, the Phased LSTM network achieves faster convergence than regular LSTMs on tasks which require learning of long sequences. The model naturally integrates inputs from sensors of arbitrary sampling rates, thereby opening new areas of investigation for processing asynchronous sensory events that carry timing information. It also greatly improves the performance of LSTMs in standard RNN applications, and does so with an order-of-magnitude fewer computes at runtime.
研究动机与目标
- 促进并使能够从传感器或神经元的不规则取样时间数据中学习。
- 用一个可学习的时间门扩展 LSTM,使得仅在节律周期的开启阶段进行更新。
- 在不牺牲精度的前提下,提高长序列学习的收敛速度和效率。
- 展示在事件驱动传感器、多速率融合和异步数据流中的适用性。
提出的方法
- 向 LSTM 单元添加由参数化振荡控制的时间门 k_t,振荡周期为 τ、开启比率为 r_on、相位为 s。
- 将时间门定义为相位 φ_t = ((t−s) mod τ)/τ 的分段线性函数,仅在 k_t 处于激活时进行更新。
- 将 LSTM 单元更新重写为包括 k_t,从而产生在更新与保持先前状态之间插值的 c_j 和 h_j 更新。
- 可训练参数包括 τ 和 s(周期和相位);在实验中 r_on 固定为 0.05。
- 允许在不规则时间 t_j 更新,当 k_j 开启时,从而能够处理异步采样输入。
- 在讨论性地将该方法解读为一个可学习的、门控的傅里叶式变换,以及一种梯度捷径的形式。
- 使用 Adam 优化和 Theano/Lasagne 框架来进行跨任务训练。
实验结果
研究问题
- RQ1一个节律时间门是否能够让 RNNs 从不规则采样或事件驱动的数据中学习,同时不牺牲准确性?
- RQ2Phased LSTMs 是否在长序列或多速率传感器数据上比标准 LSTMs 收敛更快且需要更少的运行时计算?
- RQ3周期性的开启相(τ、r_on、s)如何影响学习和记忆保持?
- RQ4Phased LSTMs 能否有效融合来自不同采样率的传感器输入(音频/视频)以及神经形态事件流?
- RQ5在不同任务中学习或固定时间门参数对性能有何影响?
主要发现
- Phased LSTM 在标准采样与不规则采样条件下维持或提升准确性,而传统 LSTM 会下降。
- 网络更新仅在开启阶段进行,因此运行时更新显著减少(在 N-MNIST 任务中,平均每个神经元约占 5%)。
- 在带异步采样和多频任务的频率判别中观察到更快的收敛和更高的准确性。
- 较长的 τ 值在添加任务的长序列上可以加速学习,指示记忆窗口效应。
- 在 N-MNIST 中,Phased LSTM 相较于 BN-LSTM 和 CNN 基线实现了更高的单轮次性能并缩短了训练时间。
- 使用 GRID 数据的唇读显示,采用与输入采样对齐的时间门的 Phased LSTM 能更快收敛并具备有竞争力的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。