Skip to main content
QUICK REVIEW

[論文レビュー] Actor-Action Semantic Segmentation with Region Masks.

Kang Dang, Chunluan Zhou|arXiv (Cornell University)|Jan 1, 2018
Human Pose and Action Recognition被引用数 2
ひとこと要約

本論文は、領域マスク内すべてのピクセルに1つのアクションラベルを割り当てることで一貫性のあるアクションラベル付けを保証する、領域ベースのアクター・アクションセマンティックセグメンテーション手法を提案する。特徴の統合と領域ベースのセグメンテーションヘッドに二本のストリームネットワークを用いる。本手法はA2DデータセットにおいてSOTAより8.1%高い平均クラス正解率および5.3%高い平均IoUを達成した。

ABSTRACT

In this paper, we study the actor-action semantic segmentation problem, which requires joint labeling of both actor and action categories in video frames. One major challenge for this task is that when an actor performs an action, different body parts of the actor provide different types of cues for the action category and may receive inconsistent action labeling when they are labeled independently. To address this issue, we propose an end-to-end region-based actor-action segmentation approach which relies on region masks from an instance segmentation algorithm. Our main novelty is to avoid labeling pixels in a region mask independently - instead we assign a single action label to these pixels to achieve consistent action labeling. When a pixel belongs to multiple region masks, max pooling is applied to resolve labeling conflicts. Our approach uses a two-stream network as the front-end (which learns features capturing both appearance and motion information), and uses two region-based segmentation networks as the back-end (which takes the fused features from the two-stream network as the input and predicts actor-action labeling). Experiments on the A2D dataset demonstrate that both the region-based segmentation strategy and the fused features from the two-stream network contribute to the performance improvements. The proposed approach outperforms the state-of-the-art results by more than 8% in mean class accuracy, and more than 5% in mean class IOU, which validates its effectiveness.

研究の動機と目的

  • 身体部位ごとのアクションラベル付けの不一致を解消するため、領域マスク内での一様なラベル付けを強制することで、アクター・アクションセグメンテーションにおける一貫性を向上させること。
  • 二本のストリームネットワークを用いて外観と動きの特徴を統合することで、アクター・アクションセマンティックセグメンテーションの性能を向上させること。
  • ピクセルが複数の領域マスクに属する場合のラベル衝突を解消するために、最大プーリングを用いること。
  • 空間的一致性を保つように、エンドツーエンドのフレームワークを構築し、アクターとアクションのカテゴリを同時に予測すること。

提案手法

  • インスタンスセグメンテーションアルゴリズムから得られる領域マスクを基盤として、各マスクに対して1つのアクションラベルを割り当てることで、一貫性のあるラベル付けを実現する。
  • 外観特徴と動き特徴を抽出する二本の畳み込みネットワークを用い、それらを統合することでより優れた表現を得る。
  • ピクセルが複数の領域マスクに属する場合の衝突を解消するために、最大プーリングを適用し、最も信頼性の高いアクションラベルを選択する。
  • 融合された特徴を入力として受け取る二つの領域ベースのセグメンテーションヘッドを用い、各領域ごとにアクターとアクションのカテゴリを予測する。
  • エンドツーエンドで全モデルを訓練することで、空間的一致性を保ちながら、アクター・アクションのラベル付けを最適化する。

実験結果

リサーチクエスチョン

  • RQ1領域マスク内での一貫性のあるアクションラベル付けを強制することで、アクター・アクションセマンティックセグメンテーションの性能向上が図れるか?
  • RQ2外観と動きの特徴を統合することで、アクター・アクションラベル付けの正確性にどのような影響を与えるか?
  • RQ3ピクセル単位の独立ラベル付けと比較して、領域ベースのラベル付けがアクションの一貫性に与える影響は何か?
  • RQ4重複する領域ラベル付けの衝突を解消するために、最大プーリングはどの程度効果的か?

主な発見

  • 提案された領域ベースのラベル付け戦略により、領域マスク内のすべてのピクセルにおいて一貫性のあるアクションラベル付けが保証され、性能が顕著に向上した。
  • 二本のストリームネットワークからの特徴統合を用いることで、アクター・アクションセグメンテーションにおける性能が著しく向上した。
  • 平均クラス正解率は72.4%に達し、これは前回のSOTAより8.1ポイント高い。
  • 平均交差率(mIoU)は58.9%に達し、前回のSOTAより5.3ポイント向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。