QUICK REVIEW

[论文解读] Deep Rewiring: Training very sparse deep networks

Guillaume Bellec, David Kappel|arXiv (Cornell University)|Nov 14, 2017

Advanced Vision and Imaging参考文献 2被引用 134

一句话总结

DEEP R 在严格的连接性界限下同时对网络权重和架构进行采样，从而训练深度网络，实现极度稀疏的网络且几乎不损失性能。

ABSTRACT

Neuromorphic hardware tends to pose limits on the connectivity of deep networks that one can run on them. But also generic hardware and software implementations of deep learning run more efficiently for sparse networks. Several methods exist for pruning connections of a neural network after it was trained without connectivity constraints. We present an algorithm, DEEP R, that enables us to train directly a sparsely connected neural network. DEEP R automatically rewires the network during supervised training so that connections are there where they are most needed for the task, while its total number is all the time strictly bounded. We demonstrate that DEEP R can be used to train very sparse feedforward and recurrent neural networks on standard benchmark tasks with just a minor loss in performance. DEEP R is based on a rigorous theoretical foundation that views rewiring as stochastic sampling of network configurations from a posterior.

研究动机与目标

激发深度学习在硬件实现中的内存和能源效率关注。
引入一个有原则的方法框架，在学习权重的同时对连接性施加硬性约束。
开发一个在监督训练过程中重新连线的算法，以在所有时刻保持固定数量的活跃突触。
提供理论保证，表明该方法从对网络配置的温化后验中采样。
展示在稀疏连接的前提下，对全连接、卷积和循环网络架构的适用性。

提出的方法

为每个潜在连接分配符号 s_k 与一个非负参数 θ_k，激活时权重 w_k = s_k θ_k，休眠时 w_k = 0。
通过对损失加上 L1 正则化项进行梯度下降来更新活跃的 θ_k，并添加高斯噪声以实现一个随机梯度 MCMC 步骤。
休眠连接被剪枝（θ_k < 0），并被随机激活的休眠连接替换，以始终保持恰好 K 个活跃连接。
将学习表述为在硬连接约束下从温化后验 p*(θ) 采样，有效地同时对权重和网络配置进行采样。
提供一个理论映射，表明在受限剪枝/连线动态（soft-DEEP R 与 DEEP R）下收敛到平稳分布。
在 MNIST、CIFAR-10 和 TIMIT 上将 DEEP R 与 soft-DEEP R 与剪枝基线进行比较，以显示稀疏网络也能保持性能。

实验结果

研究问题

RQ1在总连接数受到严格限制的情况下，神经网络能否仍然达到具有竞争力的准确度？
RQ2同时学习权重和动态重新连线是否比剪枝后再训练或固定稀疏基线得到更好的稀疏解？
RQ3所提出的方法是否在全连接、卷积和循环架构中具有泛化性？
RQ4有约束的随机重连过程的收敛特性和理论保证是什么？
RQ5该方法是否能够在不变的连接预算下支持迁移学习或在线自适应？

主要发现

DEEP R 在 MNIST 上达到 96.2%，仅需 1.3% 的连接性；经过扩展训练后，在 1.0% 的连接性下达到 96.3%。
在 CIFAR-10 上，DEEP R 在 5% 连接性下达到 84.1% 的准确率，在 20% 连接性下接近全连接的性能。
在严格稀疏性下，DEEP R 与 soft-DEEP R 的表现优于或等同于剪枝和 L1 收缩方法，特别是在连接性非常低时。
重新连线随时间趋于稳定，在初始过渡期后出现稳定的新活跃连接速率。
在 TIMIT 的 LSTM 上，DEEP R 在所有测试的连接性下都优于具有固定随机连接性的 BPTT，并且避免了剪枝/L1 方法所见的不稳定尖峰。
迁移学习实验表明，DEEP R 通过不变的早层特征和持续的后验探索促进了迁移。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。