Skip to main content
QUICK REVIEW

[论文解读] Conducting Credit Assignment by Aligning Local Representations

Alexander G. Ororbia, Ankur Mali|arXiv (Cornell University)|Mar 5, 2018
Domain Adaptation and Few-Shot Learning参考文献 38被引用 24
一句话总结

该论文提出了局部表征对齐(LRA),一种通过将每一层的输出与其自身表征能力所导出的目标对齐来鲁棒地训练深度神经网络的信用分配方法,从而消除对反向传播的依赖。LRA 在权重零初始化和不可微激活函数的情况下依然有效,且在 MNIST 和 Fashion-MNIST 上优于反向传播、目标传播和反馈对齐方法,同时支持基于生物启发的离散或随机神经元的训练。

ABSTRACT

Using back-propagation and its variants to train deep networks is often problematic for new users. Issues such as exploding gradients, vanishing gradients, and high sensitivity to weight initialization strategies often make networks difficult to train, especially when users are experimenting with new architectures. Here, we present Local Representation Alignment (LRA), a training procedure that is much less sensitive to bad initializations, does not require modifications to the network architecture, and can be adapted to networks with highly nonlinear and discrete-valued activation functions. Furthermore, we show that one variation of LRA can start with a null initialization of network weights and still successfully train networks with a wide variety of nonlinearities, including tanh, ReLU-6, softplus, signum and others that may draw their inspiration from biology. A comprehensive set of experiments on MNIST and the much harder Fashion MNIST data sets show that LRA can be used to train networks robustly and effectively, succeeding even when back-propagation fails and outperforming other alternative learning algorithms, such as target propagation and feedback alignment.

研究动机与目标

  • 解决因梯度消失/爆炸及对权重初始化敏感而导致的深层网络中反向传播的不稳定性问题。
  • 开发一种无需网络架构修改或可微激活函数的训练算法。
  • 实现对不可微或离散取值神经元(如受生物神经元系统启发的神经元)的网络训练。
  • 提供一种信用分配机制,能根据局部表征对齐动态调整训练深度。
  • 提供一种鲁棒的反向传播替代方法,即使在标准方法失效时仍保持有效性。

提出的方法

  • LRA 将每一层视为具有源自其自身可能输出空间的目标表征,从而确保可行且有效的参数更新。
  • 它使用局部损失函数计算每一层的误差信号,其中目标定义为将包含来自高层反馈的修改输入代入该层激活函数的结果。
  • 对于可微网络,LRA 通过微积分使用基于梯度的更新;对于不可微单元,采用使用固定误差反馈矩阵的反馈对齐变体。
  • 该方法将循环网络在时间步上展开,对每个时间步的展开子图应用 LRA,从而实现无需时间反向传播的 RNN 训练。
  • 隐藏层的目标计算为 $\mathbf{y}^{1}_{z,t} = \phi(\mathbf{h}^{1}_{t} - \beta(E\mathbf{e}^{2}_{t}))$,其中 $\mathbf{e}^{2}_{t}$ 为输出层的误差,$E$ 为固定反馈矩阵。
  • 参数更新计算为 $\Delta U = \sum_{t=1}^{T} \mathbf{e}^{2}_{t}(\mathbf{z}^{1}_{t})^T$,$W$ 和 $V$ 的形式类似,使用局部误差导数和激活函数梯度。

实验结果

研究问题

  • RQ1能否设计一种信用分配方法,使其在权重初始化不良或为零时仍保持鲁棒性?
  • RQ2能否在不修改网络架构的前提下,有效使用不可微或离散取值激活函数训练深层网络?
  • RQ3能否设计一种学习算法,无论非线性程度如何,均能避免深层网络中的梯度消失问题?
  • RQ4基于反馈的 LRA 变体是否能在训练速度和鲁棒性方面达到或超过反向传播和反馈对齐方法?
  • RQ5LRA 能否根据局部表征对齐动态调整信用分配的深度?

主要发现

  • LRA 可成功从零初始化开始训练网络,而反向传播和目标传播在此情况下完全失效。
  • 在 MNIST 和 Fashion-MNIST 上,LRA 在深层或高度非线性架构中优于反向传播、目标传播和反馈对齐方法。
  • LRA 的反馈变体(LRA-fdbk)在可微网络上的训练速度与反向传播相当,但对初始化的鲁棒性显著更强。
  • LRA 可用于训练使用离散激活函数(如符号函数或伯努利采样)的网络,而这些网络与标准反向传播不兼容。
  • 通过将序列展开并在时间步上应用相同的对齐原则,LRA 可应用于循环网络,同时保持计算可行性。
  • 该方法随时间动态减少接收显著更新的层数,后期仅顶层被积极训练。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。