Skip to main content
QUICK REVIEW

[論文レビュー] PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection

Yue Liao, Si Liu|arXiv (Cornell University)|Dec 30, 2019
Advanced Neural Network Applications参考文献 33被引用数 29
ひとこと要約

PPDMは、HOI検出を並列的な点検出とマッチングタスクに再定式化することで、新しい単段階型のヒューマンオブジェクトインタラクション(HOI)検出フレームワークを提案する。各HOIを、ヒューマン、インタラクション、オブジェクトの3点としてモデル化し、インタラクション点をヒューマンとオブジェクトの中心点の中央点とする。これにより、単一のTitan Xp GPUで37 fpsのリアルタイム推論が可能となり、HICO-DETで最先端の精度を達成する。

ABSTRACT

We propose a single-stage Human-Object Interaction (HOI) detection method that has outperformed all existing methods on HICO-DET dataset at 37 fps on a single Titan XP GPU. It is the first real-time HOI detection method. Conventional HOI detection methods are composed of two stages, i.e., human-object proposals generation, and proposals classification. Their effectiveness and efficiency are limited by the sequential and separate architecture. In this paper, we propose a Parallel Point Detection and Matching (PPDM) HOI detection framework. In PPDM, an HOI is defined as a point triplet < human point, interaction point, object point>. Human and object points are the center of the detection boxes, and the interaction point is the midpoint of the human and object points. PPDM contains two parallel branches, namely point detection branch and point matching branch. The point detection branch predicts three points. Simultaneously, the point matching branch predicts two displacements from the interaction point to its corresponding human and object points. The human point and the object point originated from the same interaction point are considered as matched pairs. In our novel parallel architecture, the interaction points implicitly provide context and regularization for human and object detection. The isolated detection boxes are unlikely to form meaning HOI triplets are suppressed, which increases the precision of HOI detection. Moreover, the matching between human and object detection boxes is only applied around limited numbers of filtered candidate interaction points, which saves much computational cost. Additionally, we build a new application-oriented database named HOI-A, which severs as a good supplement to the existing datasets. The source code and the dataset will be made publicly available to facilitate the development of HOI detection.

研究の動機と目的

  • 2段階型のHOI検出手法が直列処理と高い計算コストを抱えるという限界を克服すること。
  • ヒューマンとオブジェクトの検出中にインタラクション点を文脈的正則化として組み込むことで、検出精度を向上させること。
  • フィルタリングされたインタラクション点の候補を用いることで、候補となるインタラクションの数を減らし、リアルタイム推論を可能にすること。
  • 実用的なHOI検出シナリオをよりよくサポートするため、新しいアプリケーション指向のデータセットHOI-Aを開発すること。
  • しばしば低品質または関係のないペアを生成するヒューマンオブジェクト候補生成に依存しないようにすること。

提案手法

  • HOI検出を、ヒューマン、オブジェクト、インタラクション(ヒューマンとオブジェクトの中心点の中央点)の3点の中心点を予測する問題に再定式化する。
  • 2本のブランチを持つ並列アーキテクチャを導入する:点検出(3点とそのサイズの予測)と点マッチング(インタラクション点からヒューマン/オブジェクトの点への変位の予測)。
  • インタラクション点を文脈的アンカーとして用い、ヒューマンとオブジェクトの検出を正則化し、孤立したまたは不自然な検出ボックスを抑制する。
  • マッチング処理をフィルタリングされた候補となるインタラクション点の周囲に限定することで、ヒューマンオブジェクトのすべての候補を分類するのと比べて、計算コストを著しく削減する。
  • 特徴の統合とグローバルリーズニングモジュールを備えたDLAまたはHourglassバックボーンを採用し、特徴表現とインタラクション予測の精度を向上させる。
  • ヒューマンとオブジェクトのバウンディングボックスの中央点をインタラクション点として用い、アブレーションによる検証で最適であることが確認された。

実験結果

リサーチクエスチョン

  • RQ1単段階型かつ並列的なフレームワークは、精度と推論速度の両面で、既存の2段階型HOI検出手法を上回ることができるか?
  • RQ2ヒューマンとオブジェクトの中心点の中央点としてインタラクションをモデル化することで、検出精度と一般化性能が向上するか?
  • RQ3インタラクション点による文脈に配慮した正則化は、意味のあるHOIトリプレットを形成しない誤検出ボックスを抑制できるか?
  • RQ41枚のGPUで30 fps以上を達成するリアルタイムHOI検出は可能か? かつ、精度を犠牲にしないで実現できるか?
  • RQ5提案手法は、レアなおよび非レアなインタラクションタイプの両方で、最先端の手法と比較して優れた性能を示すか?

主な発見

  • PPDM-DLAはHICO-DETで20.29%のmAPを達成し、すべての先行手法を上回り、27 msの推論時間(37 fps)で動作する。これは、最初のリアルタイムHOI検出手法である。
  • PPDM-Hourglassは、最先端の手法を4.27%上回るmAPを達成しながらも、高い速度を維持しており、優れた精度・効率のトレードオフを示している。
  • アブレーションスタディの結果、中央点をインタラクション点として用いることで、他の位置(例:結合ボックスの中心)と比較して1.64%高いmAPが得られ、それが最適であることが確認された。
  • 特徴統合とグローバルリーズニングモジュールの併用は性能をわずかに向上させ、基本モデルに比べてmAPを0.35%向上させた。
  • 定性的な結果から、PPDMは2段階型手法が失敗するような小さな、または検出が難しいインタラクション(例:人が飛行機に座っている)を効果的に検出できている。
  • 特にデータセットの不均衡な状況下でも、「非インタラクション」予測の誤検出を顕著に低減しており、無差別な候補分類を避けることで実現された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。