[論文レビュー] Objects2action: Classifying and localizing actions without any video example
この論文では、動画例やアクションアノテーションを一切使用せずに、動画内のアクションを分類および局所化するゼロショットアクション認識フレームワークであるObjects2actionを提案する。本手法はImageNetのオブジェクトカテゴリに基づくスキップグラム型の意味的単語埋め込みを活用し、アクション-オブジェクト適合度の凸結合を用いる。テキストおよびオブジェクトレベルの事前知識のみを用いて、アクション分類および時空間的局所化において優れた性能を達成する。
The goal of this paper is to recognize actions in video without the need for examples. Different from traditional zero-shot approaches we do not demand the design and specification of attribute classifiers and class-to-attribute mappings to allow for transfer from seen classes to unseen classes. Our key contribution is objects2action, a semantic word embedding that is spanned by a skip-gram model of thousands of object categories. Action labels are assigned to an object encoding of unseen video based on a convex combination of action and object affinities. Our semantic embedding has three main characteristics to accommodate for the specifics of actions. First, we propose a mechanism to exploit multiple-word descriptions of actions and objects. Second, we incorporate the automated selection of the most responsive objects per action. And finally, we demonstrate how to extend our zero-shot approach to the spatio-temporal localization of actions in video. Experiments on four action datasets demonstrate the potential of our approach.
研究の動機と目的
- ラベル付きの動画例やアクションアノテーションを一切必要としない動画内のゼロショットアクション認識を実現すること。
- 手動で定義された属性やクラス-属性マッピングに依存する従来のゼロショット手法の制限を克服すること。
- 豊富なオブジェクトレベルのデータ(画像、ラベル、テキスト)を活用するスケーラブルな意味的埋め込みフレームワークを構築すること。
- トレーニング例が一切ない状態で、時空間的アクション局所化へのゼロショット認識を拡張すること。
- 意味的埋め込みを用いて、大規模な動画コレクションにおけるアクションクラスの自由入力クエリを可能にすること。
提案手法
- 数千のImageNetオブジェクトカテゴリを用いて訓練されたスキップグラムモデルに基づく意味的単語埋め込みを構築する。
- 埋め込み空間におけるアクションとオブジェクトの適合度の凸結合を用いて、未学習の動画クリップにアクションラベルを割り当てる。
- アクションおよびオブジェクトの複数語記述を統合することで、意味的表現の忠実度を向上させる。
- 学習された適合度モデリングを通じて、各アクションに対して最も反応を示すオブジェクトを自動で同定する。
- 語彙の分布的意味をモデル化し、表現の精度を向上させるために、単語埋め込みにFisherベクトル符号化を適用する。
- チューブレット候補とオブジェクト反応スコアを用いて、いかなる例動画も使用せずにゼロショット時空間的アクション局所化を実行する。
実験結果
リサーチクエスチョン
- RQ1動画例やアクションアノテーションを一切使用せずに、アクション認識を達成できるか?
- RQ2オブジェクトカテゴリとテキスト記述に基づく意味的埋め込みが、属性ベースのゼロショット手法を上回る性能を発揮できるか?
- RQ3提案されたオブジェクトベースの埋め込みは、ゼロショット時空間的アクション局所化においてどの程度有効か?
- RQ4動画例やアノテーションに依存せず、自由入力クエリが関連するアクション動画を検索できるか?
- RQ5オブジェクト埋め込みと未学習のアクションクラスにおけるスパarsity(スパarsity)をモデル化することで、認識性能が向上するか?
主な発見
- 提案されたObjects2actionフレームワークは、いかなる動画例も使用せずに、4つのベンチマークデータセットで有望なゼロショットアクション分類性能を達成した。
- UCF Sportsでは、トレーニング例が一切ないにもかかわらず、完全に教師ありベースラインと競合するAUCスコアを達成する、効果的なゼロショット時空間的アクション局所化を実現した。
- 局所化のための高いオーバーラップ閾値において、特定の状況ではゼロショットアプローチが教師あり手法を上回った。これは、局所化の精度要件に対して強い耐性を示していることを示している。
- THUMOS14における自由入力クエリでは、'ringで戦う' や 'ダンス' といった未学習のアクションについても、関連する動画を効果的に検索できた。
- 『食べ物をかがむ』 や 'wicketを倒す'(クリケット)といったアクションについても関連するクリップを検索できたが、クエリの明確さや既知のクラスとの意味的類縁度に応じて性能にばらつきが見られた。
- オブジェクト埋め込みと未学習のアクション表現の両方におけるスパarsity(スパarsity)のモデル化が性能向上に寄与した。これは、単純な平均化よりも構造的かつ非一様な特徴表現の利点を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。