[论文解读] Learning Human-Object Interactions by Graph Parsing Neural Networks
GPNN 学习解析图并执行端到端消息传递以在图像和视频中检测和识别人类-物体交互,并在 HOI 基准上超越最新方法。它在静态和时态设置中联合推断图结构并传播信息以完成 HOI 任务。
This paper addresses the task of detecting and recognizing human-object interactions (HOI) in images and videos. We introduce the Graph Parsing Neural Network (GPNN), a framework that incorporates structural knowledge while being differentiable end-to-end. For a given scene, GPNN infers a parse graph that includes i) the HOI graph structure represented by an adjacency matrix, and ii) the node labels. Within a message passing inference framework, GPNN iteratively computes the adjacency matrices and node labels. We extensively evaluate our model on three HOI detection benchmarks on images and videos: HICO-DET, V-COCO, and CAD-120 datasets. Our approach significantly outperforms state-of-art methods, verifying that GPNN is scalable to large datasets and applies to spatial-temporal settings. The code is available at https://github.com/SiyuanQi/gpnn.
研究动机与目标
- 提出一个统一的端到端框架,明确将 HOI 结构表示为图。
- 开发一个可微分的图解析神经网络,用于推断解析图并执行 HOI 标注。
- 证明 GPNN 对大型 HOI 数据集的可扩展性以及对时空 HOI 任务的适用性。
提出的方法
- 将 HOI 表示为一个包含人和对象节点的完全图,并具有可学习的相邻关系以推导解析图。
- 定义四个模块化函数——Link、Message、Update、Readout——用于端到端可微分的图解析和类似信念传播的推理。
- 在 S 步中迭代更新相邻关系和节点状态,以联合学习图结构和 HOI 标签。
- 将 Link 用一个神经网络实现,通过 1x1 卷积产生 A;对时序图使用 convLSTM。
- 使用基于 GRU 的更新和一个读出网络来产生 HOI 动作/对象标签。
- 以相邻结构的损失(L1)和节点输出的多标签 hinge 损失进行训练。
实验结果
研究问题
- RQ1GPNN 能否在可微分的端到端方式下联合学习解析图结构并执行 HOI 标注?
- RQ2学习自适应图结构是否比固定图或纯神经基线在 HOI 检测与识别方面有提升?
- RQ3该框架是否对大型 HOI 数据集具有可扩展性并且适用于时空 HOI 任务?
- RQ4迭代图学习(多步消息传递)对性能有何影响?
- RQ5对学习到的图(邻接)进行监督与固定或未正则化图相比,其影响如何?
主要发现
- GPNN 在图像中的 HOI 检测(HICO-DET 与 V-COCO)以及视频中的 HOI 识别/预测(CAD-120)方面相对于基线取得了显著提升。
- 在 HICO-DET 上,GPNN 在 Full、Rare 和 Non-Rare 类别上均实现了对之前方法的显著提升。
- 在 V-COCO 上,GPNN 在 Set 1、Set 2 及平均 mAP 上均优于基线。
- 在 CAD-120 中,GPNN 实现了更高的子活动检测 F1 分数和对象可供性检测 F1 分数,并且在预测子活动方面优于 ATCRF 与 S-RNN。
- 消融研究表明,学习图结构、与消息传递联合解析以及迭代式细化都对性能提升有贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。