QUICK REVIEW

[论文解读] Learning to solve the credit assignment problem

Benjamin Lansdell, Prashanth Ravi Prakash|arXiv (Cornell University)|Jun 3, 2019

Scheduling and Optimization Algorithms参考文献 56被引用 18

一句话总结

本文提出了一种生物上合理的学习算法，通过强化学习训练反馈权重以近似反向传播梯度。通过使用扰动和全局奖励信号，该方法在前馈网络和卷积网络中学习到精确的梯度近似，性能与反向传播相当或更优，且无需对称反馈或精确的学习规则。

ABSTRACT

Backpropagation is driving today's artificial neural networks (ANNs). However, despite extensive research, it remains unclear if the brain implements this algorithm. Among neuroscientists, reinforcement learning (RL) algorithms are often seen as a realistic alternative: neurons can randomly introduce change, and use unspecific feedback signals to observe their effect on the cost and thus approximate their gradient. However, the convergence rate of such learning scales poorly with the number of involved neurons. Here we propose a hybrid learning approach. Each neuron uses an RL-type strategy to learn how to approximate the gradients that backpropagation would provide. We provide proof that our approach converges to the true gradient for certain classes of networks. In both feedforward and convolutional networks, we empirically show that our approach learns to approximate the gradient, and can match or the performance of exact gradient-based learning. Learning feedback weights provides a biologically plausible mechanism of achieving good performance, without the need for precise, pre-specified learning rules.

研究动机与目标

为解决生物神经网络中的信用分配问题，即神经元必须确定其对全局结果的贡献。
克服强化学习在大型网络中因方差高和收敛慢而带来的局限性。
开发一种混合学习系统，其中反馈权重通过强化学习训练以近似真实梯度，从而实现高效且可扩展的学习。
提供一种生物上合理的反向传播替代方案，避免对称反馈权重或预设学习规则的需求。

提出的方法

每个神经元使用一种强化学习策略（类似REINFORCE）来学习反馈权重，以近似反向传播所提供的梯度。
反馈权重通过全局奖励信号和隐藏层激活的随机扰动来更新，以估计梯度方向。
该方法采用在线岭回归求解反馈权重，使估计梯度与真实梯度之间的误差最小化。
反馈权重矩阵 $ B $ 经训练以利用扰动的反馈信号，预测损失相对于隐藏层激活的梯度。
该方法被应用于全连接网络和卷积神经网络，训练过程使用随机梯度下降和自适应优化器。
预热阶段冻结前馈权重，仅允许反馈权重自适应调整，从而提高训练稳定性。

实验结果

研究问题

RQ1基于强化学习的方法能否以生物上合理的方式训练反馈权重以近似真实梯度？
RQ2该方法在前馈网络和卷积网络中的性能是否可与精确反向传播相媲美？
RQ3与反馈对齐和合成梯度方法相比，该方法在网络深度和宽度上的扩展性如何？
RQ4该方法能否克服反馈对齐在卷积网络和深层架构中的局限性？
RQ5扰动噪声和反馈权重自适应对学习稳定性与收敛性有何影响？

主要发现

该方法在特定网络类别中收敛至真实梯度，且在一定条件下具备一致性理论证明。
在前馈网络中，该方法的性能与精确反向传播相当或更优，并优于反馈对齐和合成梯度方法。
该方法在卷积神经网络（CIFAR10 和 CIFAR100）中成功训练，而反馈对齐在此类任务中失败，实现了具有竞争力的准确率。
反馈权重学习到的梯度近似与真实梯度表现出显著的符号一致性，即使矩阵本身存在显著差异。
该方法对超参数变化具有鲁棒性，通过随机搜索确定的最优噪声水平可提升泛化性能。
消融研究证实，性能提升源于基于强化学习的反馈权重训练，而非噪声本身；且该方法优于匹配规则和使用真实梯度的合成梯度基线方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。