QUICK REVIEW

[论文解读] Deep Contextual Attention for Human-Object Interaction Detection

Tiancai Wang, Rao Muhammad Anwer|arXiv (Cornell University)|Oct 17, 2019

Multimodal Machine Learning Applications参考文献 29被引用 24

一句话总结

本文提出了一种用于人体-物体交互（HOI）检测的深度上下文注意力框架，通过上下文感知表示增强外观特征，并利用实例条件注意力模块抑制背景噪声，同时突出显示与交互相关联的区域。该方法在多个基准上实现了最先进性能，在V-COCO数据集上mAP role相对提升了4.4%，在HICO-DET数据集上提升了9.4%，证明了在细粒度交互识别中上下文建模的有效性。

ABSTRACT

Human-object interaction detection is an important and relatively new class of visual relationship detection tasks, essential for deeper scene understanding. Most existing approaches decompose the problem into object localization and interaction recognition. Despite showing progress, these approaches only rely on the appearances of humans and objects and overlook the available context information, crucial for capturing subtle interactions between them. We propose a contextual attention framework for human-object interaction detection. Our approach leverages context by learning contextually-aware appearance features for human and object instances. The proposed attention module then adaptively selects relevant instance-centric context information to highlight image regions likely to contain human-object interactions. Experiments are performed on three benchmarks: V-COCO, HICO-DET and HCVRD. Our approach outperforms the state-of-the-art on all datasets. On the V-COCO dataset, our method achieves a relative gain of 4.4% in terms of role mean average precision ($mAP_{role}$), compared to the existing best approach.

研究动机与目标

解决现有HOI检测方法仅依赖外观特征而忽略上下文信息的局限性。
通过为人体和物体实例学习上下文感知的外观表征，提升交互识别能力。
通过自适应注意力机制，在保留交互相关线索的同时抑制上下文特征中的背景噪声。
在多个HOI检测基准（包括V-COCO、HICO-DET和HCVRD）上实现最先进性能。
证明以实例为中心的上下文建模在区分细粒度人体-物体交互中的有效性。

提出的方法

引入一种上下文感知外观模块，聚合全局和局部上下文以丰富人体和物体的外观特征。
采用上下文聚合模块捕获图像级别的全局上下文，以及局部编码模块提取实例特定的邻域上下文。
应用实例条件注意力模块，基于人体和物体实例自适应选择相关联的上下文特征。
利用学习到的注意力图调制全局特征，突出显示可能包含人体-物体交互的图像区域。
将上下文注意力模块集成到多流网络架构中，实现人体和物体检测与交互识别的联合推理。
在三个标准HOI基准上使用交叉熵损失和边界框回归损失端到端训练框架。

实验结果

研究问题

RQ1上下文感知外观特征是否能够超越标准外观基线方法，提升人体-物体交互检测性能？
RQ2实例条件注意力机制在过滤无关背景上下文的同时，突出显示交互相关区域方面的有效性如何？
RQ3融合全局与局部上下文是否能更有效地区分涉及相同物体或动作的细粒度交互？
RQ4所提出的框架在多样化HOI检测基准上的性能相较于现有最先进方法提升程度如何？
RQ5该模型是否能泛化到罕见和非罕见交互类别，以及多个共现交互？

主要发现

所提方法在V-COCO数据集上实现了47.3的mAP role，相较于之前最佳方法相对提升了4.4%。
在HICO-DET数据集上，该方法在所有类别集合的Default设置下，mAP相比最佳现有方法相对提升了9.4%。
在HICO-DET上，该模型以mAP得分16.24（完整）、11.16（罕见）和17.75（非罕见）的成绩创下新最先进水平（Default设置）。
在HCVRD数据集上，该方法在R@50下的top-1和top-3准确率分别为37.1和51.3，分别优于iCAN 3.3和2.4个百分点。
消融实验表明，全局和局部上下文均对性能有显著贡献，且注意力模块能有效抑制噪声。
定性结果表明，与iCAN等基线方法相比，注意力图更聚焦于与交互相关的区域（如手部、物体）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。