[論文レビュー] Transferable Interactiveness Knowledge for Human-Object Interaction Detection
本論文は、人間-物体インタラクション(HOI)検出のための転送可能なインタラクティビティ知識フレームワークを提案する。2段階のアプローチを採用し、まずインタラクティビティネットワークが非インタラクティブな人間-物体ペアを非インタラクティビティ抑制(NIS)により抑制し、その後、残りのペアに対してHOI分類を実行する。本手法はHICO-DETおよびV-COCOで最先端の性能を達成し、異なるデータセット間で学習された転送可能なインタラクティビティ知識により、mAPが最大4.06ポイント向上する。
Human-Object Interaction (HOI) Detection is an important problem to understand how humans interact with objects. In this paper, we explore Interactiveness Knowledge which indicates whether human and object interact with each other or not. We found that interactiveness knowledge can be learned across HOI datasets, regardless of HOI category settings. Our core idea is to exploit an Interactiveness Network to learn the general interactiveness knowledge from multiple HOI datasets and perform Non-Interaction Suppression before HOI classification in inference. On account of the generalization of interactiveness, interactiveness network is a transferable knowledge learner and can be cooperated with any HOI detection models to achieve desirable results. We extensively evaluate the proposed method on HICO-DET and V-COCO datasets. Our framework outperforms state-of-the-art HOI detection results by a great margin, verifying its efficacy and flexibility. Code is available at https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network.
研究の動機と目的
- 1段階のHOI検出における高い誤検出率を是正するため、学習可能で転送可能な事前知識としてのインタラクティビティを明示的にモデル化すること。
- 検出モデルを圧倒する非インタラクティブペアの数を削減し、分類の効率性と正確性を向上させること。
- HOIカテゴリ設定にかかわらず、任意のHOI検出モデルと組み合わせ可能な汎用的なインタラクティビティネットワークを開発すること。
- インタラクティビティ知識が異なるデータセット間で一般化できることを示し、HOI検出における転移学習の利点を実現すること。
提案手法
- 複数のHOIデータセットでトレーニングされたインタラクティビティネットワーク(P)を用い、人間-物体ペアがインタラクティブか非インタラクティブかを分類することで、一般化されたインタラクティビティ知識を学習する。
- フレームワークは2段階の推論プロセスを採用する:まず、インタラクティビティネットワークを用いて非インタラクティビティ抑制(NIS)により非インタラクティブペアをフィルタリングする。
- インタラクティビティネットワークはHOI検出モデル(C)と共同でトレーニングされ、インタラクティビティ予測とHOI分類の整合性を保証する階層的損失が適用される。
- 外見(H)、物体(O)、空間的ポーズ(S-P)の3つのストリームを用いて、マルチモーダル特徴を抽出し、より優れたインタラクティビティ識別を実現する。
- 低グレードインスタンス抑制(LIS)損失を適用して、信頼度が低い物体検出を軽減し、ノイズの多い提案に対して耐性を高める。
- 本手法はモジュラーであり、既存の任意のHOI検出モデルに統合可能で、アーキテクチャの変更なしに性能向上を実現する。
実験結果
リサーチクエスチョン
- RQ1人間-物体ペアがインタラクティブかどうかを示すインタラクティビティ知識は、異なるHOIデータセット間で学習され、転送可能か?
- RQ2別個のネットワークを用いてインタラクティビティを明示的にモデル化することで、エンドツーエンドの1段階手法と比較して、HOI検出における誤検出を低減できるか?
- RQ3分類の前段階で非インタラクティブペアをフィルタリングすることで、非インタラクティビティ抑制(NIS)がHOI検出性能にどの程度向上効果をもたらすか?
- RQ4インタラクティビティ知識の転送性は、異なるHOIカテゴリセットでトレーニングされたHOI検出モデルに、どの程度恩恵をもたらすか?
- RQ5外見、物体、空間的ポーズの各特徴ストリームのうち、どれがインタラクティビティネットワークの性能向上に寄与しているか?
主な発見
- 提案手法はHICO-DETで最先端の性能を達成し、従来の最先端手法と比較して、3つのデフォルトカテゴリセットにおいてmAPがそれぞれ2.38、3.06、2.17ポイント向上した。
- V-COCOデータセットでは、デフォルト設定および転移学習設定の両方でmAPが4.0および3.4ポイント向上した。
- 非インタラクティビティ抑制(NIS)により、非インタラクティブペアの数が最大73.62%まで削減され、HOI分類の検索空間が顕著に縮小された。
- アブレーションスタディの結果、NISを削除するとHICO-DETにおけるmAPは47.8から46.2に低下し、誤検出の低減においてNISが果たす重要性が確認された。
- 空間的ポーズストリームがインタラクティビティ予測に最も寄与しているが、3つのストリーム(H、O、S-P)を組み合わせた場合が最も高い性能を示した。
- インタラクティビティネットワークは転送可能である:あるデータセットで事前学習した後、別のデータセットに適用しても依然として検出精度を向上させ、カテゴリ固有のパターンを超えた一般化能力を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。