QUICK REVIEW

[论文解读] Random feedback weights support learning in deep neural networks

Timothy Lillicrap, Daniel Cownden|arXiv (Cornell University)|Nov 2, 2014

Advanced Memory and Neural Computing参考文献 20被引用 88

一句话总结

本文提出反馈对齐（Feedback Alignment），一种生物上更合理的深度学习算法，用固定的随机反馈权重替代反向传播中的权重绑定误差反向传播。尽管使用随机矩阵而非转置的突触权重，该方法在各类任务上仍能达到与反向传播相当的性能，证明了随机反馈权重仍可在深度网络中提供有效的信用分配。

ABSTRACT

The brain processes information through many layers of neurons. This deep architecture is representationally powerful, but it complicates learning by making it hard to identify the responsible neurons when a mistake is made. In machine learning, the backpropagation algorithm assigns blame to a neuron by computing exactly how it contributed to an error. To do this, it multiplies error signals by matrices consisting of all the synaptic weights on the neuron's axon and farther downstream. This operation requires a precisely choreographed transport of synaptic weight information, which is thought to be impossible in the brain. Here we present a surprisingly simple algorithm for deep learning, which assigns blame by multiplying error signals by random synaptic weights. We show that a network can learn to extract useful information from signals sent through these random feedback connections. In essence, the network learns to learn. We demonstrate that this new mechanism performs as quickly and accurately as backpropagation on a variety of problems and describe the principles which underlie its function. Our demonstration provides a plausible basis for how a neuron can be adapted using error signals generated at distal locations in the brain, and thus dispels long-held assumptions about the algorithmic constraints on learning in neural circuits.

研究动机与目标

解决反向传播中权重传输的生物不现实性问题，即神经元必须在各层之间共享精确的突触权重信息。
开发一种学习算法，使深度网络能够在不依赖反馈路径中前向权重知识的情况下高效学习。
证明即使使用随机反馈权重，仍可为深度网络中的信用分配提供有效的误差信号。
提供一种机制，解释大脑中上游突触如何基于下游误差信号进行更新，从而解决神经科学中长期存在的问题。

提出的方法

在反向传播的反馈路径中，用固定的随机矩阵 $B$ 替代前向权重的转置 $W^T$，使得隐藏单元的更新计算为 $\Delta \mathbf{h}_{\text{FA}} = B\mathbf{e}$。
利用反馈对齐更新方向与真实反向传播更新方向之间夹角始终小于 90 度的条件，确保学习信号指向有用方向。
证明即使使用固定的随机反馈权重，只要随机矩阵 $B$ 与真实梯度方向的内积非零，网络仍能通过学习对齐其内部表征以最小化误差。
通过证明反馈对齐下的隐藏单元更新始终是伪反向传播更新的正标量倍数，确保学习方向一致，从而证明该算法稳定且可收敛。
在线性和非线性任务上实现并测试该算法，与反向传播、强化学习及浅层学习方法进行性能比较。
通过理论分析证明在简化动力学条件下算法可收敛，表明学习信号在时间上始终与真实梯度方向保持对齐。

实验结果

研究问题

RQ1当使用固定的随机反馈权重而非转置的突触权重来传播误差信号时，深度神经网络是否仍能有效学习？
RQ2此类网络的性能在速度和准确率方面是否与标准反向传播相当？
RQ3使用随机反馈权重是否仍能实现深度网络中的有效信用分配？
RQ4当反馈权重与前向权重无关时，网络是否仍能学习对齐其内部表征？
RQ5随机反馈权重在何种理论条件下仍能产生有用的学习信号？

主要发现

反馈对齐在使用固定随机反馈权重时，在线性和非线性任务上均实现了与标准反向传播相当的性能，以归一化平方误差（NSE）衡量。
反馈对齐与反向传播的更新方向夹角始终稳定低于 90 度，表明学习信号与真实梯度方向保持对齐。
该方法对随机反馈矩阵 $B$ 的选择具有鲁棒性，只要 $\mathbf{e}^T W B \mathbf{e} > 0$ 的平均值成立，即可确保反馈信号位于有用方向。
理论分析表明，反馈对齐下的隐藏单元更新始终是伪反向传播更新的正标量倍数，从而保证学习方向一致。
在简化动力学条件下，算法可收敛，证明无需权重传输也能实现学习，即使 $W$ 和 $A$ 初始为零。
该方法在学习速度和可扩展性方面优于强化学习和浅层学习机制，同时保持了深度网络的表征能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。