[论文解读] Deciding How to Decide: Dynamic Routing in Artificial Neural Networks
本论文提出三种用于动态路由神经网络并联 cascaded evaluation 的训练策略,证明输入可以沿着专门化路径路由,并表明在固定计算预算下动态路由可以优于静态路由网络。
We propose and systematically evaluate three strategies for training dynamically-routed artificial neural networks: graphs of learned transformations through which different input signals may take different paths. Though some approaches have advantages over others, the resulting networks are often qualitatively similar. We find that, in dynamically-routed networks trained to classify images, layers and branches become specialized to process distinct categories of images. Additionally, given a fixed computational budget, dynamically-routed networks tend to perform better than comparable statically-routed networks.
研究动机与目标
- 在某些输入更易做出决策、而其他输入更难决策时,受到人类和先前级联方法的启发,推动动态路由的应用。
- 开发并测试三种在 junction 处具有多 Sink 的网络的训练策略,以基于内容对输入进行路由。
- 在固定计算预算下量化准确性/效率的权衡。
- 评估与动态路由网络兼容的正则化和优化技术。
提出的方法
- 在每个 junction 将推理路由策略定义为对学习得分向量的 argmax,从而实现多 Sink 路径。
- 提出一个多尺度(金字塔形)CNN 架构,其中路由决策依赖于全局描述符。
- 形式化推理成本,将误差与计算结合起来,c_inf = c_err + c_cpt。
- 引入三种训练策略:Actor Learning、Pragmatic Critic Learning 和 Optimistic Critic Learning。
- 对由路由决策激活的子网络进行正则化,以在频繁路径使用与不频繁路径使用之间取得平衡。
- 对各层设置不同学习率,以在不同吞吐量下稳定训练。
- 通过将 k_cpt 纳入路由策略输入,使动态适应变化的计算成本。
实验结果
研究问题
- RQ1相比静态路由网络,在受限计算条件下学习路由策略的动态路由网络是否能提高准确性?
- RQ2不同的训练策略(Actor 与 Critic 方法)如何影响动态路由的学习稳定性与性能?
- RQ3哪些正则化与优化技巧最适合支持动态路由结构?
- RQ4动态路由是否能产生专门化子模型,使分支对不同输入类别专门化?
- RQ5任务难度分布如何影响动态路由的收益?
主要发现
- 在固定计算预算下,动态路由网络通常优于架构匹配的静态路由基线。
- 基于 Actor 的路由策略通常比可比的静态路由网络取得更高的峰值准确性。
- 路由路径出现专门化:分支倾向于处理不同的图像类别,早期层处理较易的决策,后续分支处理较难的决策。
- 动态路由在不同架构和数据集上均有益处,且在模型容量提升时收益仍然存在。
- Optimistic critic 变体表现不够稳定,而 Pragmatic/Actor 方法在训练复杂性与内存方面提供了有利的权衡。
- 为吞吐量变化调整学习率可在高准确性区域提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。