QUICK REVIEW

[論文レビュー] ACP++: Action Co-occurrence Priors for Human-Object Interaction Detection

Dong-Jin Kim, Xiao Sun|arXiv (Cornell University)|Sep 9, 2021

Multimodal Machine Learning Applications参考文献 114被引用数 16

ひとこと要約

この論文では、長尾分布データセットにおける人間-オブジェクトインタラクション（HOI）検出の性能を向上させるために、行動共起事前知識（ACPs）を活用するACP++という手法を提案する。階層的ニューラルネットワークと知識蒸留を用いてHOIクラス間の自然な相関を活用することで、特に少ない学習サンプルを持つレアなHOIクラスにおいて、SOTA手法を上回る一貫した性能向上を達成した。

ABSTRACT

A common problem in the task of human-object interaction (HOI) detection is that numerous HOI classes have only a small number of labeled examples, resulting in training sets with a long-tailed distribution. The lack of positive labels can lead to low classification accuracy for these classes. Towards addressing this issue, we observe that there exist natural correlations and anti-correlations among human-object interactions. In this paper, we model the correlations as action co-occurrence matrices and present techniques to learn these priors and leverage them for more effective training, especially on rare classes. The efficacy of our approach is demonstrated experimentally, where the performance of our approach consistently improves over the state-of-the-art methods on both of the two leading HOI detection benchmark datasets, HICO-Det and V-COCO.

研究の動機と目的

HOI検出における長尾分布問題に対処すること。特に、多くのHOIクラスが非常に少ないラベル付き学習サンプルしか持たない状況である。
人間-オブジェクトインタラクション間の自然な相関および逆相関を活用することで、稀なHOIクラスの分類精度を向上させること。
外部の知識ソースを必要とせず、ラベル共起統計から学習する手法を開発すること。
共起事前知識に基づいたアーキテクチャ的および損失関数的イノベーションを通じて、モデルのロバスト性と一般化性能を向上させること。

提案手法

共起事前知識に基づき、相互に排他的なアンカーアクションを用いて定義されるアクショングループのレベルで分類を最初に行う階層的ニューラルネットワークアーキテクチャを提案する。
訓練中に共起するより頻度の高いHOIから、稀なHOIの正例ラベルを拡張するために知識蒸留を用いる。
周囲のヒューマンオブジェクトペアに注目することで、ヒューマンオブジェクトペア表現を豊かにする自己注意モジュールを導入し、グローバルな文脈モデリングを向上させる。
意味的に類似したオブジェクトカテゴリからの知識を転送するために、ワード埋め込み回帰損失を導入し、稀なクラスの学習をさらに支援する。
学習ラベル統計から導出された共起行列を用いて、HOIクラス間の自然な相関および逆相関をモデリングする。
共起事前知識を用いて予測を正則化する洗練された損失関数を採用し、特に稀なクラスにおいてロバスト性を向上させる。

実験結果

リサーチクエスチョン

RQ1行動共起事前知識は、長尾分布データセットにおける稀なHOIクラスの検出性能を顕著に向上させることができるか？
RQ2共起事前知識に基づく階層的分類は、標準的な分類と比較して、精度およびロバスト性において優れているか？
RQ3共起するHOIからの知識蒸留は、稀なインタラクションの一般化性能をどの程度向上させることができるか？
RQ4自己注意モジュールおよび言語的事前知識は、HOI検出における性能向上にどのように寄与するか？
RQ5共起事前知識は、他のインダクティブバイアス（例：ワード埋め込み）と効果的に組み合わせられ、データセットバイアスをさらに低減できるか？

主な発見

ACP++は、HICO-DetおよびV-COCOのベンチマークデータセットにおいて、SOTA手法を常に上回る一貫した性能向上を達成した。
訓練サンプルが0〜9個のHOIクラスにおいて、ACP++はベースラインモデルと比較してmAPで38.24%の相対的改善を達成した。
15個のアンカーアクションを有する階層的アーキテクチャが全体のmAPで最良の性能を発揮したが、10個のアンカーアクションが稀なクラスにおいて最良の性能を示した。
自己注意モジュールはグローバルな文脈を組み込むことで特徴表現を向上させ、特に非稀なHOIクラスにおいて利益をもたらした。
ワード埋め込み損失により、意味的に類似したが頻度の高いクラスから知識を転送でき、バイアス低減に寄与した。
誤検出の主な原因は、オブジェクト検出器の誤り、正例ラベルの欠落、または文脈モデリングの不十分さに起因しており、HOI検出における継続的な課題を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。