Skip to main content
QUICK REVIEW

[論文レビュー] HAKE: Human Activity Knowledge Engine

Yong–Lu Li, Liang Xu|arXiv (Cornell University)|Apr 13, 2019
Human Pose and Action Recognition参考文献 24被引用数 39
ひとこと要約

HAKE は、人間の体の部位状態とインスタンス活動を結ぶ大規模な部位状態注釈付き知識ベースを構築し、2段階階層パラダイムを可能にして、特に少数ショット設定において活動認識を改善します。

ABSTRACT

Human activity understanding is crucial for building automatic intelligent system. With the help of deep learning, activity understanding has made huge progress recently. But some challenges such as imbalanced data distribution, action ambiguity, complex visual patterns still remain. To address these and promote the activity understanding, we build a large-scale Human Activity Knowledge Engine (HAKE) based on the human body part states. Upon existing activity datasets, we annotate the part states of all the active persons in all images, thus establish the relationship between instance activity and body part states. Furthermore, we propose a HAKE based part state recognition model with a knowledge extractor named Activity2Vec and a corresponding part state based reasoning network. With HAKE, our method can alleviate the learning difficulty brought by the long-tail data distribution, and bring in interpretability. Now our HAKE has more than 7 M+ part state annotations and is still under construction. We first validate our approach on a part of HAKE in this preliminary paper, where we show 7.2 mAP performance improvement on Human-Object Interaction recognition, and 12.38 mAP improvement on the one-shot subsets.

研究の動機と目的

  • インスタンス活動と体の部位状態を結びつけて、活動理解を向上させる。
  • アクションを部位状態に分解することによって、長尾データ分布を緩和する。
  • Activity2Vec を通じて、解釈可能で言語的に豊かな表現を提供する。
  • HOI ベンチマークでの改善を示し、特に少数ショット設定で顕著。
  • HAKE を拡張するためにコミュニティの協力を呼びかけ、より広い採用を促進する。

提案手法

  • ポーズ誘導の部位区分を用いて、画像全体の154個のインスタンス活動について部位状態を注釈する。
  • NPMI分析を通じて人間の専門家の判断を調整し、約92の部位状態候補を定義する。
  • ROI-pooled特徴と部位レベルの相互作用事前情報を用いて部位状態を認識する Part State Classification Network (PSC) を開発する。
  • 視覚的部位状態の確率とBERTベースの言語埋め込みをトリプレット損失を用いて融合し、視覚空間と言語空間を整合させる Activity2Vec を作成する。
  • 階層グラフ内の部位状態埋め込みからインスタンス活動を推論する Part States Reasoning Network (PSR) を提案する。
  • 部位ベースの分解の利点を示すために、MNIST由来の単純化した類推を実証する。

実験結果

リサーチクエスチョン

  • RQ1大規模な活動認識における長尾とデータ不均衡の問題を、行動を体の部位状態に分解することで緩和できるか。
  • RQ2部位状態認識を経た活動推論という階層的な2段階パラダイムが、HOIおよび少数ショット認識の性能を改善するか。
  • RQ3視覚の部位状態情報と言語埋め込み(Activity2Vec)を組み合わせると、より解釈可能で効果的な活動表現が得られるか。
  • RQ4部位状態ベースの推論は、HICO/HICO-DETやAVAなどのデータセットにまたがる複雑な活動へどの程度一般化できるか?
  • RQ5HAKE の注釈を、VQA、アクション検索、動画理解などのより広いタスクをサポートするように拡張できるか?

主な発見

  • HAKE は HOI 認識ベンチマークで著しい改善を達成し、ある設定下で HICO において prior-methods に対して 7.2 mAP の利得を含む。
  • 真値の部位状態を使用する HAKE-GT は HICO で最大 62.5 mAP を達成し、手法の上限ポテンシャルを示している。
  • 少数ショット HOI のサブセットでは、HAKE は強力なベースラインに対して約 11–12 mAP の性能向上を大きく達成した。
  • Part State 推論と Activity2Vec 表現は、解釈性の向上と競争力のある性能を提供し、データが乏しい場合に特に有効。
  • HAKE は 104k+ 枚以上の画像にわたり 700万を超える体の部位状態のインスタンスを注釈しており、資源の規模と多様な活動理解タスクへの潜在能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。