[论文解读] iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection
论文提出 iCAN,一个实例中心的注意模块,学习在每个检测到的实例条件下关注信息丰富的区域,从而在 V-COCO 和 HICO-DET 上改进 HOI 检测并达到最先进行的结果。
Recent years have witnessed rapid progress in detecting and recognizing individual object instances. To understand the situation in a scene, however, computers need to recognize how humans interact with surrounding objects. In this paper, we tackle the challenging task of detecting human-object interactions (HOI). Our core idea is that the appearance of a person or an object instance contains informative cues on which relevant parts of an image to attend to for facilitating interaction prediction. To exploit these cues, we propose an instance-centric attention module that learns to dynamically highlight regions in an image conditioned on the appearance of each instance. Such an attention-based network allows us to selectively aggregate features relevant for recognizing HOIs. We validate the efficacy of the proposed network on the Verb in COCO and HICO-DET datasets and show that our approach compares favorably with the state-of-the-arts.
研究动机与目标
- 将 HOI 检测动机化为识别人类与环境对象之间的交互以实现场景理解。
- 利用实例特定的外观来引导具空间感知的上下文注意。
- 整合三通道网络(人、对象、成对)并加入实例中心化注意模块以提升 HOI 预测。
- 在 V-COCO 和 HICO-DET 上展示最先进的性能,并给出消融和误差分析。
提出的方法
- 引入一个实例中心化注意模块,通过对基于实例外观进行条件化的图像区域的注意来创建一个上下文特征。
- 将实例外观和卷积特征嵌入到一个 512 通道的空间中以计算基于相似性的注意图。
- 将上下文特征作为对卷积特征的加权平均并用注意图进行拼接,与实例外观拼接。
- 使用三条流(人、对象、成对)来产生动作分数 s_h^a、s_o^a 和 s_sp^a,然后通过相乘/相加进行融合,形式为 S_h,o^a = s_h · s_o · (s_h^a + s_o^a) · s_sp^a。
- 采用晚融合变体(流分数之和)和早融合变体(拼接特征经 FC 层处理)用于 HOI 分数预测。
- 作为多标签分类问题训练,对每个动作使用 sigmoid 输出。
实验结果
研究问题
- RQ1基于人/对象外观条件化的实例中心化注意是否能在 appearance/空间线索之外提升 HOI 预测?
- RQ2不同融合策略(晚融合 vs 早融合)如何影响 HOI 检测的性能与效率?
- RQ3上下文特征(实例中心化注意)对 HOI 精度相对于其他上下文基线有何影响?
- RQ4所提出的 iCAN 框架是否能在 V-COCO 和 HICO-DET 数据集上达到最先进的结果?
主要发现
| 方法 | 特征骨干 | AP_role |
|---|---|---|
| Gupta and Malik (2015) / Gkioxari et al. (2018) | ResNet-50-FPN | 31.8 |
| InteractNet (Gkioxari et al. 2018) | ResNet-50-FPN | 40.0 |
| BAR-CNN (Kolesnikov et al. 2018) | Inception-ResNet | 41.1 |
| iCAN (ours) w/ late fusion | ResNet-50 | 44.7 |
| iCAN (ours) w/ early fusion | ResNet-50 | 45.3 |
| Table 1: V-COCO results | ||
| Note: numbers reflect AP_role per paper text |
- iCAN 采用晚融合在 V-COCO 上实现 44.7 AP_role,超过 InteractNet(40.0 AP_role)。
- iCAN 采用早融合在 V-COCO 上实现 45.3 AP_role,相较晚融合有提升。
- 在 HICO-DET(默认设置)上,iCAN 实现 14.84 Full,10.45 Rare,16.15 Non Rare;Known Object 更新分别为 16.26 Full,11.33 Rare,17.73 Non Rare。
- 相比先前的最佳方法,iCAN 在 HICO-DET Default Full 结果上相对于 InteractNet 取得了 49.3% 的相对提升。
- 消融研究显示实例中心化注意比其他上下文特征(如自下而上的注意、全图特征)提供更大增益。
- 定性结果展示多样化的 HOI 检测与可解释的注意图,突出相关区域和身体部位。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。