[论文解读] AOGNets: Deep AND-OR Grammar Networks for Visual Recognition
AOGNets 通过使用分层且组合式的 AOG 构建模块,引入了用于视觉识别的深度 AND-OR 语法网络,其中 AND-节点(特征拼接)、OR-节点(特征求和)和终端节点(特征切片)构成结构,支持端到端训练,在 CIFAR-10、CIFAR-100 和 ImageNet-1K 上的性能优于 ResNet,与 DenseNet 相当,同时在 PASCAL VOC 上的 Faster R-CNN 目标检测性能也得到提升。
This paper presents a method of learning deep AND-OR Grammar (AOG) networks for visual recognition, which we term AOGNets. An AOGNet consists of a number of stages each of which is composed of a number of AOG building blocks. An AOG building block is designed based on a principled AND-OR grammar and represented by a hierarchical and compositional AND-OR graph. Each node applies some basic operation (e.g., Conv-BatchNorm-ReLU) to its input. There are three types of nodes: an AND-node explores composition, whose input is computed by concatenating features of its child nodes; an OR-node represents alternative ways of composition in the spirit of exploitation, whose input is the element-wise sum of features of its child nodes; and a Terminal-node takes as input a channel-wise slice of the input feature map of the AOG building block. AOGNets aim to harness the best of two worlds (grammar models and deep neural networks) in representation learning with end-to-end training. In experiments, AOGNets are tested on three highly competitive image classification benchmarks: CIFAR-10, CIFAR-100 and ImageNet-1K. AOGNets obtain better performance than the widely used Residual Net and its variants, and are tightly comparable to the Dense Net. AOGNets are also tested in object detection on the PASCAL VOC 2007 and 2012 using the vanilla Faster RCNN system and obtain better performance than the Residual Net.
研究动机与目标
- 开发一种将结构化语法模型与端到端学习相结合的深度神经网络架构,以提升视觉表征能力。
- 通过引入一种组合式、分层结构,克服 ResNet 等固定架构的局限性,以建模特征学习中的组合与替代关系。
- 在不修改标准模型架构的前提下,在图像分类和目标检测基准上实现具有竞争力的性能。
- 证明基于语法规则的分层组合机制能够增强深度网络中的特征学习。
提出的方法
- AOGNets 由多个阶段组成,每个阶段包含以分层 AND-OR 图结构组织的 AOG 构建模块。
- 每个 AOG 构建模块使用三种节点类型:AND-节点通过拼接实现特征组合,OR-节点通过逐元素求和实现特征路径的替代,终端节点通过通道切片处理输入特征。
- 每个节点对其输入特征应用标准深度学习操作(例如,卷积-批归一化-ReLU)。
- 网络支持端到端训练,实现对分层语法结构与特征学习组件的联合优化。
- 该架构在特征层次中同时实现利用(通过 OR-节点)与探索(通过 AND-节点),模拟人类视觉感知机制。
实验结果
研究问题
- RQ1基于语法规则的分层结构能否提升视觉识别任务中深度学习的表征能力?
- RQ2将 AND-OR 语法与深度神经网络结合,对标准基准测试的性能有何影响?
- RQ3组合式的 AND-OR 结构是否优于或至少可与现代残差网络和密集网络相媲美?
- RQ4当 AOGNet 架构集成到标准 Faster R-CNN 框架中时,能否提升目标检测性能?
主要发现
- 在 CIFAR-10、CIFAR-100 和 ImageNet-1K 上,AOGNets 的分类准确率优于残差网络及其变体。
- 在相同基准上,AOGNets 的性能与当前最先进架构 DenseNet 紧密相当。
- 当集成到 Faster R-CNN 框架中时,AOGNets 在 PASCAL VOC 2007 和 2012 上的目标检测性能优于基于 ResNet 的模型。
- AOGNets 的端到端训练成功优化了分层语法结构与特征学习组件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。