[论文解读] OD-GCN object detection by knowledge graph with GCN.
本文提出 OD-GCN,一种基于知识图谱增强的物体检测框架,通过利用图卷积网络(GCN)建模物体类别间的关系,提升检测精度。通过构建共现物体的知识图谱,并将 GCN 作为预训练检测器的后处理模块,OD-GCN 在 COCO 数据集上多个模型的 mAP 提升了 1–5 个百分点,且提升结果经人工验证。
Classical object detection methods only extract the objects' image features via CNN, lack of utilizing the relationship among objects in the same image. In this article, we introduce the graph convolutional networks (GCN) into the object detection field and propose a new framework called OD-GCN (object detection with graph convolutional network). It utilizes the category relationship to improve the detection precision. We set up a knowledge graph to reflect the co-exist relationships among objects. GCN plays the role of post-processing to adjust the output of base object detection models, so it is a flexible framework that any pre-trained object detection models can be used as the base model. In experiments, we try several popular base detection models. OD-GCN always improve mAP by 1-5pp on COCO dataset. In addition, visualized analysis reveals the benchmark improvement is quite reasonable in human's opinion.
研究动机与目标
- 解决传统物体检测器忽略图像中物体间相互关系的局限性。
- 通过整合物体间的语义关系与共现关系,提升检测精度。
- 设计一种与任意预训练物体检测模型兼容的灵活框架。
- 验证基于图的推理是否以人类可解释的方式提升检测性能。
提出的方法
- 利用先验知识构建编码物体类别间共现与类别关系的知识图谱。
- 使用图卷积网络(GCN)通过知识图谱中节点间的关联信息传播,优化物体检测得分。
- 将 GCN 作为后处理模块集成到基础检测器输出之后,保持模型无关的灵活性。
- 端到端训练或微调 GCN 模块,根据上下文关系调整检测置信度得分。
- 使用来自预训练模型(如 Faster R-CNN、RetinaNet)的物体检测特征作为 GCN 优化阶段的输入。
- 应用视觉注意力机制与特征传播,增强上下文感知预测,同时不修改主干网络。
实验结果
研究问题
- RQ1通过知识图谱建模物体间关系是否能提升物体检测性能?
- RQ2基于 GCN 的后处理在不同基础检测器上优化检测得分的效率如何?
- RQ3OD-GCN 的性能提升是否与人类对检测质量的感知一致?
- RQ4该框架在不同物体检测架构上的泛化能力如何?
主要发现
- OD-GCN 在 COCO 数据集上多个基础物体检测模型上,将平均平均精度(mAP)提升了 1–5 个百分点。
- 性能增益在不同主干网络上保持一致,证明了该框架的泛化能力与灵活性。
- 可视化结果表明,模型以符合人类对合理物体共现的直觉方式纠正了检测错误。
- 知识图谱有效编码了语义与上下文关系,使 GCN 能够利用关系上下文优化预测。
- GCN 的后处理特性使得该框架可无缝集成到任意预训练检测器中,无需重新训练整个模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。