Skip to main content
QUICK REVIEW

[论文解读] PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection

Yue Liao, Si Liu|arXiv (Cornell University)|Dec 30, 2019
Advanced Neural Network Applications参考文献 33被引用 29
一句话总结

PPDM 提出了一种新颖的单阶段人体-物体交互(HOI)检测框架,将 HOI 检测重新定义为并行的关键点检测与匹配任务。通过将每个 HOI 建模为人体、交互点和物体的三元组,其中交互点为人体与物体中心的中点,该方法在单张 Titan Xp GPU 上实现了 37 fps 的实时推理速度,同时在 HICO-DET 数据集上达到了最先进(SOTA)的准确率。

ABSTRACT

We propose a single-stage Human-Object Interaction (HOI) detection method that has outperformed all existing methods on HICO-DET dataset at 37 fps on a single Titan XP GPU. It is the first real-time HOI detection method. Conventional HOI detection methods are composed of two stages, i.e., human-object proposals generation, and proposals classification. Their effectiveness and efficiency are limited by the sequential and separate architecture. In this paper, we propose a Parallel Point Detection and Matching (PPDM) HOI detection framework. In PPDM, an HOI is defined as a point triplet < human point, interaction point, object point>. Human and object points are the center of the detection boxes, and the interaction point is the midpoint of the human and object points. PPDM contains two parallel branches, namely point detection branch and point matching branch. The point detection branch predicts three points. Simultaneously, the point matching branch predicts two displacements from the interaction point to its corresponding human and object points. The human point and the object point originated from the same interaction point are considered as matched pairs. In our novel parallel architecture, the interaction points implicitly provide context and regularization for human and object detection. The isolated detection boxes are unlikely to form meaning HOI triplets are suppressed, which increases the precision of HOI detection. Moreover, the matching between human and object detection boxes is only applied around limited numbers of filtered candidate interaction points, which saves much computational cost. Additionally, we build a new application-oriented database named HOI-A, which severs as a good supplement to the existing datasets. The source code and the dataset will be made publicly available to facilitate the development of HOI detection.

研究动机与目标

  • 为克服两阶段 HOI 检测方法存在的顺序处理与高计算成本等局限性。
  • 通过在人体与物体检测过程中引入交互点作为上下文正则化手段,提升检测精度。
  • 通过过滤后的交互点候选提议减少候选交互数量,实现推理的实时性。
  • 构建一个面向应用的新数据集 HOI-A,以更好地支持实际的 HOI 检测场景。
  • 消除对人类-物体提议生成的依赖,该过程常产生低质量或无关的配对。

提出的方法

  • 将 HOI 检测重新定义为预测三个中心点:人体点、物体点和交互点(人体与物体点中心的中点)。
  • 引入一种并行架构,包含两个分支:关键点检测(预测全部三个点及其尺寸)与关键点匹配(预测从交互点到人体/物体点的位移)。
  • 利用交互点作为上下文锚点,对人类与物体检测进行正则化,抑制孤立或不合理的检测框。
  • 仅在经过筛选的候选交互点周围进行匹配操作,与对所有人类-物体提议进行分类相比,显著降低了计算成本。
  • 采用 DLA 或 Hourglass 主干网络,结合特征融合与全局推理模块,以增强特征表示与交互预测能力。
  • 通过消融实验验证,将人体与物体边界框的中点作为交互点为最优选择。

实验结果

研究问题

  • RQ1单阶段并行框架是否能在准确率与推理速度两方面均超越现有两阶段 HOI 检测方法?
  • RQ2将交互建模为人体与物体中心之间的中点,是否能提升检测精度与泛化能力?
  • RQ3通过交互点实现的上下文感知正则化,是否能有效抑制未形成有意义 HOI 三元组的误检框?
  • RQ4是否能在单张 GPU 上实现 30 fps 及以上的实时 HOI 检测,且不损失准确率?
  • RQ5与最先进方法相比,该方法在罕见与非罕见交互类型上的表现如何?

主要发现

  • PPDM-DLA 在 HICO-DET 上实现了 20.29% 的 mAP,优于所有先前方法,且推理速度达 37 fps(27 ms 推理时间),是首个实现实时 HOI 检测的方法。
  • PPDM-Hourglass 在最先进方法的基础上实现了 4.27% 的 mAP 提升,同时保持高速,展现出更优的准确率-效率权衡。
  • 消融实验表明,使用中点作为交互点可使 mAP 提高 1.64%,优于其他位置(如并集框中心),证实其中点选择的最优性。
  • 特征融合与全局推理模块对性能有轻微提升,两者结合使用使 mAP 相比基础模型提升 0.35%。
  • 定性结果表明,PPDM 能有效检测到小尺寸或难以检测的交互(如“人坐在飞机上”),而两阶段方法常在此类情况中失败。
  • 通过避免对所有提议进行无差别分类,该方法显著减少了“无交互”预测中的误报,尤其在类别不平衡数据集中表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。