QUICK REVIEW

[論文レビュー] Contextual Action Recognition with R*CNN

Georgia Gkioxari, Ross Girshick|arXiv (Cornell University)|May 5, 2015

Human Pose and Action Recognition参考文献 28被引用数 72

ひとこと要約

本論文では、主な人物領域と有益な二次的文脈領域を同時にモデル化することで、行動認識を向上させる領域ベースの畳み込みニューラルネットワーク、R∗CNNを提案する。エンド・ツー・エンドの学習により、ポーズとシーンの文脈を統合的に活用することで、PASCAL VOC Actionsで90.2%の平均mAPを達成し、先行手法より6ポイント優れており、属性分類においても最先端の結果を達成した。

ABSTRACT

There are multiple cues in an image which reveal what action a person is performing. For example, a jogger has a pose that is characteristic for jogging, but the scene (e.g. road, trail) and the presence of other joggers can be an additional source of information. In this work, we exploit the simple observation that actions are accompanied by contextual cues to build a strong action recognition system. We adapt RCNN to use more than one region for classification while still maintaining the ability to localize the action. We call our system R*CNN. The action-specific models and the feature maps are trained jointly, allowing for action specific representations to emerge. R*CNN achieves 90.2% mean AP on the PASAL VOC Action dataset, outperforming all other approaches in the field by a significant margin. Last, we show that R*CNN is not limited to action recognition. In particular, R*CNN can also be used to tackle fine-grained tasks such as attribute classification. We validate this claim by reporting state-of-the-art performance on the Berkeley Attributes of People dataset.

研究の動機と目的

人物ポーズを超える文脈的情報を活用することで、静止画における行動認識を向上させること。
行動固有の特徴と文脈表現を同時に学習する深層学習フレームワークの開発。
RCNNフレームワークを拡張し、1枚の画像に複数の領域を用いることで、局所化と分類性能の向上。
本手法が、属性分類のような細分化された視覚認識タスクへ一般化可能であることを示すこと。
モデルが意味的に関連のある文脈的領域に注目しているかどうかを可視化し、検証すること。

提案手法

R∗CNNは、1枚の画像あたりの主な領域（注目対象の人物）と、候補となる二次的領域（文脈的情報）のセットを導入することで、RCNNを拡張する。
各行動について、スコアは主領域特徴と、二次領域からの最大スコアの和として計算される：score(α; I, r) = w_p^α ⋅ φ(r; I) + max_{s ∈ R(r;I)} w_s^α ⋅ φ(s; I)。
最終的な予測は、すべての行動スコアをソフトマックスによりクラス確率に変換することで得られる。
特徴φ(⋅)と重みw_p^α, w_s^αは、CNNバックボーン上で確率的勾配降下法を用いて同時に学習される。
計算効率を高めるために、Fast RCNNを基盤とし、領域提案を用いて1枚の画像あたり複数の候補領域を効率的に処理する。
多ラベル属性分類のため、ソフトマックスではなく独立したロジスティック出力の交差エントロピー損失に適応される。

実験結果

リサーチクエスチョン

RQ1シーン、物体、周囲の人物といった文脈的情報が、静止画における行動認識を向上させることができるか？
RQ2手動による文脈のアノテーションなしに、深層学習モデルが行動固有の表現と文脈領域の選択を同時に学習可能か？
RQ3主領域＋最適な二次領域を用いることで、単一領域モデルよりも性能が向上するか？
RQ4同じアーキテクチャが、属性分類のような細分化された認識タスクへ一般化可能か？
RQ5選択された二次領域が、行動や属性に関連する意味的に有意義な文脈的情報に対応しているか？

主な発見

R∗CNNは、PASCAL VOC Actionsデータセットで90.2%の平均平均精度（mAP）を達成し、前回の最先端手法より6ポイント優れた。
より大きなMPII Human Poseデータセットでは、R∗CNNは26.7%のmAPを達成し、前回の最良手法（5.5% mAP）を著しく上回った。
Stanford 40 Actionsデータセットでは、R∗CNNは平均mAPが90.9%であり、'メッセージを送信する'では70.5%から'バイオリンを弾く'では100%まで変動した。
Berkeley Attributes of Peopleデータセットでは、R∗CNNは89.2%のmAPを達成し、属性分類分野で新たな最先端を樹立した。
可視化結果から、二次領域が関連する文脈的部分に注目していることが確認された。例として、'長袖'では腕や胴体、'帽子を被る'では顔に注目している。
トレーニング段階で部位やキーポイントのアノテーションを必要としなくても、行動認識と細分化された属性予測の両方へ良好に一般化された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。