Skip to main content
QUICK REVIEW

[論文レビュー] Mining the Benefits of Two-stage and One-stage HOI Detection

Aixi Zhang, Yue Liao|arXiv (Cornell University)|Aug 11, 2021
Multimodal Machine Learning Applications参考文献 38被引用数 35
ひとこと要約

この論文は二段階検出器と一段階 HOI 検出器を分析し、Cascade Disentangling Network (CDN) を提案する。これは人-物ペアの検出と相互作用分類を分離した一段階フレームワークで、特に希少クラスで HICO-Det に大きな利得をもたらす。

ABSTRACT

Two-stage methods have dominated Human-Object Interaction (HOI) detection for several years. Recently, one-stage HOI detection methods have become popular. In this paper, we aim to explore the essential pros and cons of two-stage and one-stage methods. With this as the goal, we find that conventional two-stage methods mainly suffer from positioning positive interactive human-object pairs, while one-stage methods are challenging to make an appropriate trade-off on multi-task learning, i.e., object detection, and interaction classification. Therefore, a core problem is how to take the essence and discard the dregs from the conventional two types of methods. To this end, we propose a novel one-stage framework with disentangling human-object detection and interaction classification in a cascade manner. In detail, we first design a human-object pair generator based on a state-of-the-art one-stage HOI detector by removing the interaction classification module or head and then design a relatively isolated interaction classifier to classify each human-object pair. Two cascade decoders in our proposed framework can focus on one specific task, detection or interaction classification. In terms of the specific implementation, we adopt a transformer-based HOI detector as our base model. The newly introduced disentangling paradigm outperforms existing methods by a large margin, with a significant relative mAP gain of 9.32% on HICO-Det. The source codes are available at https://github.com/YueLiao/CDN.

研究の動機と目的

  • 従来の二段階および一段階 HOI 検出器の長所と短所を評価する。
  • 検出と相互作用分類を分離する統一されたエンドツーエンドの一段階フレームワークを提案する。
  • カスケード分離が HOI 検出性能を改善することを示す。特に希少クラスで効果が大きい。

提案手法

  • Cascade Disentangling Network (CDN) を2つのカスケードデコーダー、Human-Object Pair Decoder (HO-PD) と Interaction Decoder を用いて導入する。
  • HO-PD は相互作用ヘッドを取り除き、人-物ペアの検出に集中し HO 予測と相互作用スコアを生成する。
  • HO-PD の出力をクエリとして使用し、相互作用デコーダを初期化し、各 HO ペアのアクションカテゴリを予測する。
  • DETR/従来の HOI 研究を継承する Transformer ベースの検出器をベースとして採用し、QPIC に類似した二部マッチング損失で訓練する。
  • 訓練時の長尾 HOI 分布を緩和するために、デカップリング動的再重み付けスキームを適用する。
  • 推論時には Pair-wise Non-Maximal Suppression (PNMS) を用いて HOI トリプレットを精練する。

実験結果

リサーチクエスチョン

  • RQ1一段階フレームワーク内のカスケードで検出と相互作用分類を分離することは、従来の二段階 HOI 検出器を上回ることができるのか?
  • RQ2並列のマルチタスクヘッドと比較して、カスケードは検出と相互作用分類の機能特化を改善するのか?
  • RQ3提案された CDN は、標準 HOI ベンチマーク(HICO-Det, V-COCO)で最先端手法と比較してどのように性能を発揮するか。特に希少クラスで?
  • RQ4訓練戦略(例:動的再重み付け、PNMS)は HOI 検出の長尾問題の緩和にどのように寄与するのか?

主な発見

MethodDetectorBackboneExtraFullRareNon-Rare
InteractNetTwo-stageResNet-50-FPN9.947.1610.77
GPNNTwo-stageRes-DCN-15213.119.3414.23
iCAN*Two-stageResNet-5014.8410.4516.15
No-FrillsTwo-stageResNet-15217.1812.1718.68
PMFNetTwo-stageResNet-50-FPNP17.4615.6518.00
CHGNetTwo-stageResNet-5017.5716.8517.78
DRGTwo-stageResNet-50-FPNT19.2617.7419.71
VCLTwo-stageResNet-5019.4316.5520.29
IP-NetTwo-stageHourglass-10419.5612.7921.58
VSGNetTwo-stageResNet-15219.8016.0520.91
FCMNetTwo-stageResNet-50-FPN20.4117.3421.56
ACPTwo-stageResNet-152T20.5915.9221.98
IDNTwo-stageResNet-5023.3622.4723.63
UnionDetOne-stageResNet-5017.5811.7219.33
DIRVOne-stageEfficientDet-d321.7816.3823.39
PPDM-HourglassOne-stageHourglass-10421.9413.9724.32
HOI-TransOne-stageResNet-5023.4616.9125.41
GG-NetOne-stageHourglass-10423.4716.4825.60
ATLOne-stageResNet-5023.8117.4325.72
HOTROne-stageResNet-5025.1017.3427.42
AS-NetOne-stageResNet-5028.8724.2530.25
QPICOne-stageResNet-5029.0721.8531.23
CDN-SOne-stageResNet-5031.4427.3932.64
CDN-BOne-stageResNet-5031.7827.5533.05
CDN-LOne-stageResNet-10132.0727.1933.53
  • CDNは HOI 検出において従来手法を大きく上回り、HICO-Det で大幅な利得を得る(例:CDN-B および CDN-L がトップの結果を達成)。
  • CDN-S ベースは full mAP で QPIC を 6.50% 上回り、希少クラスで特に顕著な改善を示す(例:希少 HOI に対して相対 +23.66%)。
  • 分離されたカスケード(HO-PD に続く分離された相互作用デコーディング)はより良い特化を生み出す。HO-PD は検出領域に焦点を当て、Interaction Decoder は相互作用の文脈を強調する(例:持つ手)
  • On HICO-Det, CDN-S/B/L はそれぞれ 31.44/31.78/32.07 mAP を達成し、QPIC の 29.07 に対して顕著な gains を記録。V-COCO では CDN-B が 64.42 AP_role (Scenario 2) および 62.29 (Scenario 1) を達成。
  • 動的再重み付けと PNMS は追加の性能向上に寄与し、PNMS により CDN-B が HICO-Det で 31.78 mAP に達する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。