[论文解读] Assessing the Scalability of Biologically-Motivated Deep Learning Algorithms and Architectures
该论文在 MNIST、CIFAR-10 和 ImageNet 上评估生物学动机的学习算法(目标传播变体和反馈对齐),发现与反向传播相比在 ImageNet 上的扩展性较差,尤其是在局部连接架构下。
The backpropagation of error algorithm (BP) is impossible to implement in a real brain. The recent success of deep networks in machine learning and AI, however, has inspired proposals for understanding how the brain might learn across multiple layers, and hence how it might approximate BP. As of yet, none of these proposals have been rigorously evaluated on tasks where BP-guided deep learning has proved critical, or in architectures more structured than simple fully-connected networks. Here we present results on scaling up biologically motivated models of deep learning on datasets which need deep networks with appropriate architectures to achieve good performance. We present results on the MNIST, CIFAR-10, and ImageNet datasets and explore variants of target-propagation (TP) and feedback alignment (FA) algorithms, and explore performance in both fully- and locally-connected architectures. We also introduce weight-transport-free variants of difference target propagation (DTP) modified to remove backpropagation from the penultimate layer. Many of these algorithms perform well for MNIST, but for CIFAR and ImageNet we find that TP and FA variants perform significantly worse than BP, especially for networks composed of locally connected units, opening questions about whether new architectures and algorithms are required to scale these approaches. Our results and implementation details help establish baselines for biologically motivated deep learning schemes going forward.
研究动机与目标
- 评估生物学动机的学习算法是否能从 MNIST 扩展到更困难的数据集,如 CIFAR-10 和 ImageNet。
- 评估架构选择的影响,例如局部连接与权重共享卷积,对生物学上可行的学习的影响。
- 提供基线和变体(包括简化的 DTP 变体),以理解梯度传输在学习中的作用。
- 就大型视觉任务中生物现实性与学习性能的趋同或分歧提供指南。
提出的方法
- 在 MNIST 和 CIFAR-10 上,使用全连接和局部连接架构,评估目标传播(TP)变体,包括 DTP 和 SDTP,以及反向传播(BP)和反馈对齐(FA)的变体。
- 引入简化差分目标传播(SDTP),从 DTP 中移除梯度传播和权重传输。
- 测试带辅助输出的增强输出方案(AO-SDTP),以提高倒数第二层目标的多样性。
- 在数据集和架构上,与 FA、DFA 和标准 BP(包括 ConvNet 变体)进行比较。
- 通过对比全连接与局部连接网络,研究权重共享的作用,以评估生物学可行性和性能。
- 使用 Adam 优化器和 Glorot–Bengio 初始化,采用 tanh 激活函数和论文中描述的标准训练协议。
实验结果
研究问题
- RQ1生物学动机的学习算法(TP 变体、FA、DFA)是否能在性能上接近反向传播地从 MNIST 扩展到 CIFAR-10 和 ImageNet?
- RQ2局部连接架构(不进行权重共享)在 TP/FA 学习中对比标准 BP 有何影响?
- RQ3简化梯度传输(SDTP)是否会削弱或保留性能,特别是在低熵目标(分类)和高维倒数第二层表示的情况下?
- RQ4添加辅助输出(AO-SDTP)是否有助于缓解基于 TP 的方法中倒数第二层目标的弱问题?
- RQ5在像 ImageNet 这样的大规模数据集上,阻止生物学动机算法达到与 BP 相当的具体局限性和瓶颈是什么?
主要发现
- 在某些架构和超参数下,TP 和 FA 变体可以接近 BP,但通常落后于 BP,尤其是在局部连接层时。
- SDTP 在 MNIST 上的表现与 DTP 相近,但在 CIFAR-10 上差距更大,突显目标多样性和良好逆向映射的重要性。
- FA 和 DFA 相较于某些 TP 变体有所改进,但在 ImageNet 上仍远远落后于 BP;DFA 对于大网络而言内存受限。
- 卷积/权重共享网络在所有方法上均优于局部连接变体,表明架构选择对生物学动机学习的有效性有强烈影响。
- 所有生物学动机的算法在 ImageNet 上相对于 BP 均展现出显著的性能差距,表明需要新架构或学习规则以扩展到大规模数据集。
- AO-SDTP 通过增加目标多样性可以对 SDTP 产生温和的改进,尽管在 CIFAR 上仍未达到 BP,在 ImageNet 上远远低于 BP。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。