QUICK REVIEW

[论文解读] Scene Graph Generation with External Knowledge and Image Reconstruction

Jiuxiang Gu, Handong Zhao|arXiv (Cornell University)|Apr 1, 2019

Multimodal Machine Learning Applications参考文献 48被引用 31

一句话总结

本文提出了一种新颖的场景图生成框架，通过整合来自ConceptNet的外部常识知识和图像重建损失，提升了模型的鲁棒性和泛化能力。通过使用动态记忆网络对物体和短语特征进行优化，并利用图像重建对场景图生成器进行正则化，该方法在VRD和Visual Genome数据集上实现了最先进性能，显著提升了罕见关系和噪声标注的召回率。

ABSTRACT

Scene graph generation has received growing attention with the advancements in image understanding tasks such as object detection, attributes and relationship prediction,~\etc. However, existing datasets are biased in terms of object and relationship labels, or often come with noisy and missing annotations, which makes the development of a reliable scene graph prediction model very challenging. In this paper, we propose a novel scene graph generation algorithm with external knowledge and image reconstruction loss to overcome these dataset issues. In particular, we extract commonsense knowledge from the external knowledge base to refine object and phrase features for improving generalizability in scene graph generation. To address the bias of noisy object annotations, we introduce an auxiliary image reconstruction path to regularize the scene graph generation network. Extensive experiments show that our framework can generate better scene graphs, achieving the state-of-the-art performance on two benchmark datasets: Visual Relationship Detection and Visual Genome datasets.

研究动机与目标

解决现有场景图数据集中存在的偏差与噪声问题，特别是长尾分布以及缺失/错误的物体标注。
通过整合ConceptNet等外部知识库中的常识知识，提升场景图生成性能。
通过辅助的图像重建分支正则化场景图预测过程，增强模型的泛化能力和鲁棒性。
尽管真实世界标注数据存在局限性，仍能在基准数据集上实现最先进性能。

提出的方法

引入基于知识的特征优化模块，从ConceptNet中检索相关事实，并利用动态记忆网络（DMN）进行多跳推理，以优化物体和短语特征。
采用图像级别的监督路径，从检测到的物体和边界框重建输入图像，作为训练过程中的正则化器。
采用基于生成对抗网络（GAN）的架构，联合优化场景图生成与图像重建，提升特征一致性与上下文感知能力。
仅在训练阶段应用图像重建损失，使模型能够在不影响推理的前提下学习更丰富的视觉上下文。
在端到端可训练的框架中结合知识优化与图像重建分支，同时提升物体检测与关系预测性能。
利用外部知识纠正误判，提升低频关系与罕见物体类别预测的召回率。

实验结果

研究问题

RQ1来自ConceptNet的外部常识知识能否提升场景图生成模型的泛化能力与准确性？
RQ2图像重建损失在多大程度上能缓解场景图数据集中噪声与不完整标注的影响？
RQ3场景图生成与图像重建的联合优化在长尾与稀疏关系分布上能多大程度提升性能？
RQ4知识推理与图像级监督的结合是否能带来优于基线模型的物体检测与关系预测性能？
RQ5所提出的框架能否在VRD和Visual Genome等标准基准上超越现有最先进方法？

主要发现

所提出的KB-GAN模型在VRD数据集上实现了最先进性能，短语检测的recall@50为27.39%，recall@100为34.38%；场景图生成的recall@50为20.31%，recall@100为25.01%。
在Visual Genome数据集上，模型在短语检测中达到recall@50为23.51%，recall@100为30.04%；在场景图生成中达到recall@50为13.65%，recall@100为17.57%，优于所有先前方法。
消融实验表明，在子采样的VRD数据集上，添加图像级监督使短语检测的recall@50提升8.63%（从15.44%提升至24.07%）。
即使在训练集中移除20%的物体实例，模型在场景图生成任务中的recall@50仅下降0.77%，表明其对数据稀疏性具有强鲁棒性。
通过ConceptNet整合常识知识，相较于Faster R-CNN和ViP-CNN，mAP显著提升，证明其在噪声条件下提升物体检测性能的有效性。
定性结果表明，重建图像在视觉上合理，且与预测的场景图高度一致，验证了模型学习有意义视觉与关系表征的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。