[論文レビュー] Mining the Benefits of Two-stage and One-stage HOI Detection
この論文は二段階検出器と一段階 HOI 検出器を分析し、Cascade Disentangling Network (CDN) を提案する。これは人-物ペアの検出と相互作用分類を分離した一段階フレームワークで、特に希少クラスで HICO-Det に大きな利得をもたらす。
Two-stage methods have dominated Human-Object Interaction (HOI) detection for several years. Recently, one-stage HOI detection methods have become popular. In this paper, we aim to explore the essential pros and cons of two-stage and one-stage methods. With this as the goal, we find that conventional two-stage methods mainly suffer from positioning positive interactive human-object pairs, while one-stage methods are challenging to make an appropriate trade-off on multi-task learning, i.e., object detection, and interaction classification. Therefore, a core problem is how to take the essence and discard the dregs from the conventional two types of methods. To this end, we propose a novel one-stage framework with disentangling human-object detection and interaction classification in a cascade manner. In detail, we first design a human-object pair generator based on a state-of-the-art one-stage HOI detector by removing the interaction classification module or head and then design a relatively isolated interaction classifier to classify each human-object pair. Two cascade decoders in our proposed framework can focus on one specific task, detection or interaction classification. In terms of the specific implementation, we adopt a transformer-based HOI detector as our base model. The newly introduced disentangling paradigm outperforms existing methods by a large margin, with a significant relative mAP gain of 9.32% on HICO-Det. The source codes are available at https://github.com/YueLiao/CDN.
研究の動機と目的
- 従来の二段階および一段階 HOI 検出器の長所と短所を評価する。
- 検出と相互作用分類を分離する統一されたエンドツーエンドの一段階フレームワークを提案する。
- カスケード分離が HOI 検出性能を改善することを示す。特に希少クラスで効果が大きい。
提案手法
- Cascade Disentangling Network (CDN) を2つのカスケードデコーダー、Human-Object Pair Decoder (HO-PD) と Interaction Decoder を用いて導入する。
- HO-PD は相互作用ヘッドを取り除き、人-物ペアの検出に集中し HO 予測と相互作用スコアを生成する。
- HO-PD の出力をクエリとして使用し、相互作用デコーダを初期化し、各 HO ペアのアクションカテゴリを予測する。
- DETR/従来の HOI 研究を継承する Transformer ベースの検出器をベースとして採用し、QPIC に類似した二部マッチング損失で訓練する。
- 訓練時の長尾 HOI 分布を緩和するために、デカップリング動的再重み付けスキームを適用する。
- 推論時には Pair-wise Non-Maximal Suppression (PNMS) を用いて HOI トリプレットを精練する。
実験結果
リサーチクエスチョン
- RQ1一段階フレームワーク内のカスケードで検出と相互作用分類を分離することは、従来の二段階 HOI 検出器を上回ることができるのか?
- RQ2並列のマルチタスクヘッドと比較して、カスケードは検出と相互作用分類の機能特化を改善するのか?
- RQ3提案された CDN は、標準 HOI ベンチマーク(HICO-Det, V-COCO)で最先端手法と比較してどのように性能を発揮するか。特に希少クラスで?
- RQ4訓練戦略(例:動的再重み付け、PNMS)は HOI 検出の長尾問題の緩和にどのように寄与するのか?
主な発見
| Method | Detector | Backbone | Extra | Full | Rare | Non-Rare |
|---|---|---|---|---|---|---|
| InteractNet | Two-stage | ResNet-50-FPN | ✗ | 9.94 | 7.16 | 10.77 |
| GPNN | Two-stage | Res-DCN-152 | ✗ | 13.11 | 9.34 | 14.23 |
| iCAN* | Two-stage | ResNet-50 | ✗ | 14.84 | 10.45 | 16.15 |
| No-Frills | Two-stage | ResNet-152 | ✗ | 17.18 | 12.17 | 18.68 |
| PMFNet | Two-stage | ResNet-50-FPN | P | 17.46 | 15.65 | 18.00 |
| CHGNet | Two-stage | ResNet-50 | ✗ | 17.57 | 16.85 | 17.78 |
| DRG | Two-stage | ResNet-50-FPN | T | 19.26 | 17.74 | 19.71 |
| VCL | Two-stage | ResNet-50 | ✗ | 19.43 | 16.55 | 20.29 |
| IP-Net | Two-stage | Hourglass-104 | ✗ | 19.56 | 12.79 | 21.58 |
| VSGNet | Two-stage | ResNet-152 | ✗ | 19.80 | 16.05 | 20.91 |
| FCMNet | Two-stage | ResNet-50-FPN | ✗ | 20.41 | 17.34 | 21.56 |
| ACP | Two-stage | ResNet-152 | T | 20.59 | 15.92 | 21.98 |
| IDN | Two-stage | ResNet-50 | ✗ | 23.36 | 22.47 | 23.63 |
| UnionDet | One-stage | ResNet-50 | ✗ | 17.58 | 11.72 | 19.33 |
| DIRV | One-stage | EfficientDet-d3 | ✗ | 21.78 | 16.38 | 23.39 |
| PPDM-Hourglass | One-stage | Hourglass-104 | ✗ | 21.94 | 13.97 | 24.32 |
| HOI-Trans | One-stage | ResNet-50 | ✗ | 23.46 | 16.91 | 25.41 |
| GG-Net | One-stage | Hourglass-104 | ✗ | 23.47 | 16.48 | 25.60 |
| ATL | One-stage | ResNet-50 | ✗ | 23.81 | 17.43 | 25.72 |
| HOTR | One-stage | ResNet-50 | ✗ | 25.10 | 17.34 | 27.42 |
| AS-Net | One-stage | ResNet-50 | ✗ | 28.87 | 24.25 | 30.25 |
| QPIC | One-stage | ResNet-50 | ✗ | 29.07 | 21.85 | 31.23 |
| CDN-S | One-stage | ResNet-50 | ✗ | 31.44 | 27.39 | 32.64 |
| CDN-B | One-stage | ResNet-50 | ✗ | 31.78 | 27.55 | 33.05 |
| CDN-L | One-stage | ResNet-101 | ✗ | 32.07 | 27.19 | 33.53 |
- CDNは HOI 検出において従来手法を大きく上回り、HICO-Det で大幅な利得を得る(例:CDN-B および CDN-L がトップの結果を達成)。
- CDN-S ベースは full mAP で QPIC を 6.50% 上回り、希少クラスで特に顕著な改善を示す(例:希少 HOI に対して相対 +23.66%)。
- 分離されたカスケード(HO-PD に続く分離された相互作用デコーディング)はより良い特化を生み出す。HO-PD は検出領域に焦点を当て、Interaction Decoder は相互作用の文脈を強調する(例:持つ手)
- On HICO-Det, CDN-S/B/L はそれぞれ 31.44/31.78/32.07 mAP を達成し、QPIC の 29.07 に対して顕著な gains を記録。V-COCO では CDN-B が 64.42 AP_role (Scenario 2) および 62.29 (Scenario 1) を達成。
- 動的再重み付けと PNMS は追加の性能向上に寄与し、PNMS により CDN-B が HICO-Det で 31.78 mAP に達する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。