Skip to main content
QUICK REVIEW

[论文解读] Generalized Capsule Networks with Trainable Routing Procedure

Zhenhua Chen, David Crandall|arXiv (Cornell University)|Aug 27, 2018
Advanced Steganography and Watermarking Techniques参考文献 14被引用 29
一句话总结

该论文提出广义胶囊网络(G-CapsNet),其中路由过程完全可微,通过使耦合系数可学习,实现端到端训练,消除了对手动设置路由迭代次数的需求。该方法在显著减少参数量的同时,实现了与先前CapsNets相当的MNIST性能;实验表明胶囊打包策略对准确率影响极小,尽管深层架构存在饱和问题。

ABSTRACT

CapsNet (Capsule Network) was first proposed by~\citet{capsule} and later another version of CapsNet was proposed by~\citet{emrouting}. CapsNet has been proved effective in modeling spatial features with much fewer parameters. However, the routing procedures in both papers are not well incorporated into the whole training process. The optimal number of routing procedure is misery which has to be found manually. To overcome this disadvantages of current routing procedures in CapsNet, we embed the routing procedure into the optimization procedure with all other parameters in neural networks, namely, make coupling coefficients in the routing procedure become completely trainable. We call it Generalized CapsNet (G-CapsNet). We implement both "full-connected" version of G-CapsNet and "convolutional" version of G-CapsNet. G-CapsNet achieves a similar performance in the dataset MNIST as in the original papers. We also test two capsule packing method (cross feature maps or with feature maps) from previous convolutional layers and see no evident difference. Besides, we also explored possibility of stacking multiple capsule layers. The code is shared on \hyperlink{https://github.com/chenzhenhua986/CAFFE-CapsNet}{CAFFE-CapsNet}.

研究动机与目标

  • 解决现有CapsNets中固定且不可学习的路由迭代所导致的局限性,该局限性需要手动调参。
  • 将胶囊路由过程整合到整体优化过程中,使耦合系数可训练。
  • 评估不同胶囊打包策略(跨特征图与于特征图内)对性能的影响。
  • 通过堆叠多个胶囊层,研究CapsNets的可扩展性。
  • 探索胶囊网络是否可扩展至单层架构之外而不导致性能下降。

提出的方法

  • 通过将耦合系数 $ c^{(l)}_{ji} $ 作为与权重 $ W^{(l)}_{ji} $ 同等的可学习参数,将路由过程嵌入优化过程,支持端到端反向传播。
  • 构建联合损失函数,同时包含变换矩阵权重和耦合系数,并通过L2正则化进行约束。
  • 采用Sabour等人(2017)和Edgar等人(2017)提出的挤压函数,对胶囊输出进行归一化并引入非线性。
  • 实现G-CapsNet的全连接与卷积两种变体,卷积版本中共享变换矩阵。
  • 设计一种胶囊版ReLU,以提升深层架构中的训练稳定性。
  • 采用与原始CapsNet相同的边缘损失进行分类训练,以实现对象识别。

实验结果

研究问题

  • RQ1能否通过在反向传播中学习耦合系数,使CapsNets中的路由过程完全可训练?
  • RQ2胶囊打包策略的选择——跨特征图或于特征图内——是否会影响模型性能?
  • RQ3能否成功训练更深的胶囊网络?在扩展CapsNets至单层胶囊以上时面临哪些挑战?
  • RQ4在错误率与参数效率方面,G-CapsNet相较于基线CapsNets的表现如何?
  • RQ5端到端训练路由是否可消除对手动设置路由迭代次数的需求?

主要发现

  • G-CapsNet在MNIST上仅使用820万个参数即达到0.66%的测试错误率,当使用重建时,优于基线CapsNet(0.83%错误率,3540万个参数)。
  • 全连接G-CapsNet变体在不使用重建的情况下,仅用680万个参数即实现0.66%的错误率,展现出极高的参数效率。
  • 卷积G-CapsNet变体在使用550万个参数时达到0.70%的错误率,表明在卷积设置下参数效率依然得以保持。
  • 在特征图之间与于特征图内部打包胶囊的性能无显著差异,错误率分别为0.68%和0.66%。
  • 多层G-CapsNets即使使用胶囊版ReLU,训练过程中仍易出现饱和现象,表明可扩展性仍是主要挑战。
  • 所提出的端到端可训练路由过程消除了对手动调整路由迭代次数的需求,并通过优化过程确保收敛。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。