Skip to main content
QUICK REVIEW

[论文解读] ACP++: Action Co-occurrence Priors for Human-Object Interaction Detection

Dong-Jin Kim, Xiao Sun|arXiv (Cornell University)|Sep 9, 2021
Multimodal Machine Learning Applications参考文献 114被引用 16
一句话总结

本文提出 ACP++,一种利用动作共现先验(ACPs)来提升长尾数据集上人-物体交互(HOI)检测性能的方法。通过分层神经网络与知识蒸馏技术,挖掘 HOI 类别间的自然相关性,ACP++ 在 HICO-Det 和 V-COCO 上持续优于最先进方法,尤其在训练样本极少的罕见 HOI 类别上表现显著。

ABSTRACT

A common problem in the task of human-object interaction (HOI) detection is that numerous HOI classes have only a small number of labeled examples, resulting in training sets with a long-tailed distribution. The lack of positive labels can lead to low classification accuracy for these classes. Towards addressing this issue, we observe that there exist natural correlations and anti-correlations among human-object interactions. In this paper, we model the correlations as action co-occurrence matrices and present techniques to learn these priors and leverage them for more effective training, especially on rare classes. The efficacy of our approach is demonstrated experimentally, where the performance of our approach consistently improves over the state-of-the-art methods on both of the two leading HOI detection benchmark datasets, HICO-Det and V-COCO.

研究动机与目标

  • 为解决 HOI 检测中长尾分布问题,即许多 HOI 类别仅有极少标注训练样本。
  • 通过挖掘人-物体交互之间的自然相关性与反相关性,提升罕见 HOI 类别的分类准确率。
  • 开发一种无需依赖外部知识源即可从标签共现统计中学习的方法。
  • 通过基于共现先验的架构与损失函数创新,提升模型鲁棒性与泛化能力。

提出的方法

  • 提出一种分层神经网络架构,首先在动作组层面进行分类,每组由基于共现先验的互斥锚定动作定义。
  • 利用知识蒸馏技术,在训练过程中通过共现频率较高的 HOI 向罕见 HOI 扩展正样本标签。
  • 引入自注意力模块,通过关注周围的人-物体对来丰富人-物体对的表征,提升全局上下文建模能力。
  • 引入词嵌入回归损失,将语义相似物体类别之间的知识迁移至模型,进一步辅助罕见类别学习。
  • 利用从训练标签统计中提取的共现矩阵,建模 HOI 类别之间的自然相关性与反相关性。
  • 采用改进的损失函数,利用共现先验正则化预测结果,提升模型鲁棒性,尤其对罕见类别有显著改善。

实验结果

研究问题

  • RQ1动作共现先验是否能显著提升长尾数据集中罕见 HOI 类别的检测性能?
  • RQ2基于共现先验的分层分类方法与标准分类方法相比,在准确率与鲁棒性方面表现如何?
  • RQ3从共现 HOI 中进行知识蒸馏,能在多大程度上提升罕见交互的泛化能力?
  • RQ4自注意力机制与语言先验在 HOI 检测中如何贡献性能提升?
  • RQ5共现先验能否与其它归纳偏置(如词嵌入)有效结合,以进一步缓解数据集偏差?

主要发现

  • ACP++ 在 HICO-Det 与 V-COCO 基准数据集上持续优于最先进方法。
  • 对于训练样本数为 0–9 个的 HOI 类别,ACP++ 相较基线模型在 mAP 上实现 38.24% 的相对提升。
  • 采用 15 个锚定动作的分层架构在整体 mAP 上表现最佳,而 10 个锚定动作在罕见类别上表现最优。
  • 自注意力模块通过引入全局上下文信息,改善了特征表示,尤其对非罕见 HOI 类别有显著帮助。
  • 词嵌入损失使罕见 HOI 类别能从语义相似但更频繁的类别中获益,进一步缓解偏差。
  • 错误预测主要源于物体检测器误差、真实标签缺失或上下文建模不足,凸显了 HOI 检测中仍存在的核心挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。