[论文解读] Transferable Interactiveness Knowledge for Human-Object Interaction Detection
本文提出了一种可迁移的交互性知识框架,用于人体-物体交互(HOI)检测,采用两阶段方法:首先,通过非交互抑制(NIS)机制,利用交互性网络抑制非交互的人-物对;随后,对剩余的对进行HOI分类。该方法在HICO-DET和V-COCO数据集上实现了最先进性能,通过跨数据集学习的可迁移交互性知识,mAP最高提升了4.06个百分点。
Human-Object Interaction (HOI) Detection is an important problem to understand how humans interact with objects. In this paper, we explore Interactiveness Knowledge which indicates whether human and object interact with each other or not. We found that interactiveness knowledge can be learned across HOI datasets, regardless of HOI category settings. Our core idea is to exploit an Interactiveness Network to learn the general interactiveness knowledge from multiple HOI datasets and perform Non-Interaction Suppression before HOI classification in inference. On account of the generalization of interactiveness, interactiveness network is a transferable knowledge learner and can be cooperated with any HOI detection models to achieve desirable results. We extensively evaluate the proposed method on HICO-DET and V-COCO datasets. Our framework outperforms state-of-the-art HOI detection results by a great margin, verifying its efficacy and flexibility. Code is available at https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network.
研究动机与目标
- 通过显式建模交互性作为可学习且可迁移的先验知识,解决单阶段HOI检测中高误报率的问题。
- 减少大量非交互对对检测模型造成的负担,从而提升分类效率与准确性。
- 开发一种通用的交互性网络,可与任意HOI检测模型结合,无论HOI类别设置如何。
- 证明交互性知识可在不同数据集间泛化,从而在HOI检测中实现迁移学习优势。
提出的方法
- 在多个HOI数据集上训练交互性网络(P),用于将人-物对分类为交互或非交互,学习通用的交互性知识。
- 该框架采用两阶段推理流程:首先,利用交互性网络执行非交互抑制(NIS),过滤掉非交互对。
- 交互性网络与HOI检测模型(C)联合训练,采用分层损失函数,强制保证交互性预测与HOI分类之间的一致性。
- 网络使用三种分支——外观(H)、物体(O)和空间-姿态(S-P)——提取多模态特征,以提升交互性判别能力。
- 应用低质量实例抑制(LIS)损失,降低低置信度物体检测的影响,提升对噪声提议的鲁棒性。
- 该方法模块化设计,可无缝集成到任意现有HOI检测模型中,无需修改网络结构即可提升性能。
实验结果
研究问题
- RQ1能否在不同HOI数据集之间学习并迁移交互性知识(即判断某个人-物对是否具有交互性)?
- RQ2与端到端的单阶段方法相比,通过独立网络显式建模交互性是否能有效降低HOI检测中的误报?
- RQ3非交互抑制(NIS)在分类前过滤非交互对,能在多大程度上提升HOI检测性能?
- RQ4交互性知识的可迁移性在不同HOI类别集合上进行训练的检测模型中,能带来多大程度的性能增益?
- RQ5不同特征分支(外观、物体、空间-姿态)对交互性网络性能的贡献分别是什么?
主要发现
- 所提方法在HICO-DET数据集上达到最先进性能,相较于先前最先进方法,在三种默认类别设置下mAP分别提升了2.38、3.06和2.17个百分点。
- 在V-COCO数据集上,该方法在默认设置和迁移学习设置下,mAP分别提升了4.0和3.4个百分点。
- 非交互抑制(NIS)将非交互对的数量最多减少了73.62%,显著缩小了HOI分类的搜索空间。
- 消融实验表明,若移除NIS,HICO-DET上的mAP从47.8降至46.2,证实其在降低误报中的关键作用。
- 空间-姿态分支对交互性预测贡献最大,但三者(H、O、S-P)联合使用时性能最佳。
- 交互性网络具有可迁移性:当在某一数据集上预训练并在另一数据集上应用时,仍能提升检测准确率,证明其超越类别特异性模式的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。