[论文解读] Biologically inspired alternatives to backpropagation through time for learning in recurrent neural nets
本文提出在线且生物学上可行的替代反向传播穿时序(BPTT)的方法,称为 e-prop,使用 eligibility traces 和本地学习信号,对脉冲神经网络和 LSTM 网络有三种变体(e-prop 1–3)并应用于脉冲神经网络和 LSTM 网络。
The way how recurrently connected networks of spiking neurons in the brain acquire powerful information processing capabilities through learning has remained a mystery. This lack of understanding is linked to a lack of learning algorithms for recurrent networks of spiking neurons (RSNNs) that are both functionally powerful and can be implemented by known biological mechanisms. Since RSNNs are simultaneously a primary target for implementations of brain-inspired circuits in neuromorphic hardware, this lack of algorithmic insight also hinders technological progress in that area. The gold standard for learning in recurrent neural networks in machine learning is back-propagation through time (BPTT), which implements stochastic gradient descent with regard to a given loss function. But BPTT is unrealistic from a biological perspective, since it requires a transmission of error signals backwards in time and in space, i.e., from post- to presynaptic neurons. We show that an online merging of locally available information during a computation with suitable top-down learning signals in real-time provides highly capable approximations to BPTT. For tasks where information on errors arises only late during a network computation, we enrich locally available information through feedforward eligibility traces of synapses that can easily be computed in an online manner. The resulting new generation of learning algorithms for recurrent neural networks provides a new understanding of network learning in the brain that can be tested experimentally. In addition, these algorithms provide efficient methods for on-chip training of RSNNs in neuromorphic hardware.
研究动机与目标
- 动机:需要对具有尖峰放电的循环网络的学习算法,这些算法既强大又生物学上可行。
- 提出将 BPTT 梯度分解为 eligibility traces 和 online learning signals(e-prop)。
- 开发并分析三个变体(e-prop 1, 2, 3) 以在不进行反向时间误差传播的情况下近似梯度下降。
- 展示在 RSNNs 上的在线、基于任务的学习能力,并与 BPTT 和其他学习规则比较。
- 讨论对神经科学和神经形态硬件实现 RSNNs 学习的影响。
提出的方法
- 推导 BPTT 梯度的分解:dE/dθ_{ji} = sum_t L_j^t e_{ji}^t (Equation 1).
- 通过向前时间更新定义 eligibility traces e_{ji}^t(方程 2 和 3),利用局部动力学 D_j^{t-1} 和 bepsilon_{ji}^t。
- 引入 online learning signals L_j^t,作为理想梯度的近似(L_j^t ≈ dE/dz_j^t,具有在线变体)。
- 开发 e-prop 1:使用瞬时输出误差的广播对齐来生成学习信号;提供具有局部分量的三因素学习规则(Equation 5)。
- 开发 e-prop 2:Learning-to-Learn (L2L) 使用误差模块来生成特定任务的学习信号,同时允许 RSNN 自适应其权重;外环训练误差模块。
- 开发 e-prop 3:将合成梯度与 eligibility traces 整合,以提升超越某些 BPTT 基线的性能;在循环网络上显示改进。
实验结果
研究问题
- RQ1在线、局部可计算的学习信号结合 eligibility traces 是否能在 RSNNs 上近似 BPTT 的性能?
- RQ2与 BPTT 相比,生物学上可行的近似(e-prop 变体)是否在需要时序信用分配的任务(如模式生成、存储-回忆、语音任务)上实现有效学习?
- RQ3误差调制机制(广播对齐、误差模块、合成梯度)如何影响学习能力与生物学可行性?
- RQ4这些方法能否扩展到不同的网络模型(LIF、LSNN、LSTM)并仍然在线计算?
- RQ5e-prop 方法对神经形态硬件的片上训练有何影响?
主要发现
- e-prop 通过将 eligibility traces 与学习信号在线合并,可以在不需要反向传播误差的情况下实现近似 BPTT 的实时学习。
- 使用广播对齐式学习信号的 e-prop 1 能在 RSNNs 和 LSNNs 的模式生成与存储-回忆任务中实现有效的信用分配,并支持语音识别(e-prop 1 可用于 TIMIT 数据)。
- e-prop 1 在模式生成(三维目标,1 s)上取得有竞争力的性能,代表性运行的均方误差约为 0.01;完整的 BPTT 可以取得更低误差,但 e-prop 1 仍然有效。
- 在 LSNNs 上的存储-回忆任务,由 e-prop 1 解决,误分类率低于 5%(50 次迭代的平均值);BPTT 在更少的迭代中达到类似或稍快的收敛速度。
- 通过 L2L 的 e-prop 2 和带有合成梯度的 e-prop 3 增强学习能力;这些方法可以实现一次学习并在某些基线之上提升 RSNNs 的学习。
- 该框架与生物学观测到的学习信号(ERN、多巴胭调制等)相关联,并产生与实验数据一致的三因子可塑性规则,同时也实现了神经形态硬件的片上学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。