[论文解读] Interpretable R-CNN
本文提出可解释的 R-CNN,通过用 AOG 解析算子替代 RoIPooling,实现弱监督、抽取式推理生成的对象检测,方法基于分层与或图(AOG)语法学习可解释的部件配置。该方法在 PASCAL VOC 2007 和 2012 上实现了最先进检测性能,同时提供人类可解释的解析树作为推理依据。
This paper presents a method of learning qualitatively interpretable models in object detection using popular two-stage region-based ConvNet detection systems (i.e., R-CNN). R-CNN consists of a region proposal network and a RoI (Region-of-Interest) prediction network.By interpretable models, we focus on weakly-supervised extractive rationale generation, that is learning to unfold latent discriminative part configurations of object instances automatically and simultaneously in detection without using any supervision for part configurations. We utilize a top-down hierarchical and compositional grammar model embedded in a directed acyclic AND-OR Graph (AOG) to explore and unfold the space of latent part configurations of RoIs. We propose an AOGParsing operator to substitute the RoIPooling operator widely used in R-CNN, so the proposed method is applicable to many state-of-the-art ConvNet based detection systems. The AOGParsing operator aims to harness both the explainable rigor of top-down hierarchical and compositional grammar models and the discriminative power of bottom-up deep neural networks through end-to-end training. In detection, a bounding box is interpreted by the best parse tree derived from the AOG on-the-fly, which is treated as the extractive rationale generated for interpreting detection. In learning, we propose a folding-unfolding method to train the AOG and ConvNet end-to-end. In experiments, we build on top of the R-FCN and test the proposed method on the PASCAL VOC 2007 and 2012 datasets with performance comparable to state-of-the-art methods.
研究动机与目标
- 开发一种无需部件级标注即可学习可解释、弱监督抽取式推理的方法,用于对象检测。
- 将自顶向下的分层与或图(AOG)语法整合到两阶段 R-CNN 模型中,以建模潜在的部件配置。
- 用端到端可训练的 AOG 解析算子替代 RoIPooling,同时支持可解释性与检测精度。
- 通过 AOG 中的最佳解析树实现实时对检测框的解释。
- 采用折叠-展开框架联合训练 AOG 与卷积神经网络,实现端到端优化。
提出的方法
- 该方法引入 AOG 解析算子替代 RoIPooling,通过有向无环与或图(AOG)实现区域建议的分层与组合式解析。
- AOG 通过自顶向下的分层语法规则,将部件组合为对象,实现对 RoI 的结构化解释。
- 提出一种折叠-展开训练策略,以端到端方式联合优化 AOG 结构与卷积神经网络参数。
- AOG 被训练以预测每个 RoI 的最可能解析树,该解析树作为检测决策的抽取式推理依据。
- 将模型集成到 R-FCN 中,并在 PASCAL VOC 2007 和 2012 上进行评估,保持了具有竞争力的检测精度。
实验结果
研究问题
- RQ1弱监督方法能否在无部件级标注的情况下学习对象检测中的可解释部件配置?
- RQ2如何将分层语法模型整合到基于深度学习的检测框架中以提升可解释性?
- RQ3AOG 解析算子能否在保持或提升检测性能的同时替代 RoIPooling?
- RQ4AOG 中的最佳解析树在多大程度上可作为人类可解释的对象检测推理依据?
- RQ5折叠-展开训练方法在联合优化 AOG 与检测网络方面有多有效?
主要发现
- 所提出的可解释 R-CNN 在 PASCAL VOC 2007 和 2012 数据集上实现了与最先进方法相当的检测性能。
- 该方法通过 AOG 的最佳解析树生成抽取式推理,为对象检测结果提供可解释的基于部件的解释。
- AOG 解析算子成功替代了 RoIPooling,并在保持检测精度的同时实现了与卷积神经网络的端到端训练。
- 折叠-展开训练策略有效实现了 AOG 结构与检测网络的联合优化。
- 该模型表明,在两阶段 R-CNN 框架中,弱监督学习部件配置是可行且有效的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。