QUICK REVIEW

[論文レビュー] Baidu-UTS Submission to the EPIC-Kitchens Action Recognition Challenge 2019

Xiaohan Wang, Yu Wu|arXiv (Cornell University)|Jun 22, 2019

Human Pose and Action Recognition参考文献 26被引用数 19

ひとこと要約

本論文は、EPIC-Kitchens 2019 動作認識チャレンジにおける優勝ソリューションを提示しており、3D CNNのクリップ特徴量とコンテキストフレームからの物体検出特徴量を統合するゲート付き特徴統合器（GFA）を導入することで、動詞および名詞の認識を向上させている。物体に依存する特徴量を活用し、訓練を安定化させることで、見ているテストセットではトップ1正答率69.80%、見ていなかったテストセットでは名詞認識で52.27%の最先端性能を達成した。

ABSTRACT

In this report, we present the Baidu-UTS submission to the EPIC-Kitchens Action Recognition Challenge in CVPR 2019. This is the winning solution to this challenge. In this task, the goal is to predict verbs, nouns, and actions from the vocabulary for each video segment. The EPIC-Kitchens dataset contains various small objects, intense motion blur, and occlusions. It is challenging to locate and recognize the object that an actor interacts with. To address these problems, we utilize object detection features to guide the training of 3D Convolutional Neural Networks (CNN), which can significantly improve the accuracy of noun prediction. Specifically, we introduce a Gated Feature Aggregator module to learn from the clip feature and the object feature. This module can strengthen the interaction between the two kinds of activations and avoid gradient exploding. Experimental results demonstrate our approach outperforms other methods on both seen and unseen test set.

研究の動機と目的

エゴセントリック動画における動作認識、特に小さな物体、運動のぼやけ、隠蔽の影響を受ける名詞予測の向上を図ること。
標準的な3D CNNが第一人称動画理解において限界を示すのを補うために、物体検出特徴量を監視として組み込むこと。
新規のゲート付き特徴統合器（GFA）モジュールを用いて、クリップレベルとオブジェクトレベルの特徴表現間の相互作用を強化し、訓練を安定化させること。
EPIC-Kitchensデータセットの見ているおよび見ていなかったテスト分割の両方で最先端の性能を達成すること。

提案手法

フレームワークは二本のブランチ構造を採用している：一方のブランチは中央の動画クリップを処理し、クリップレベル特徴量を抽出する3D CNNであり、もう一方はクリップを取り囲むコンテキストフレームに対して事前学習済みのFaster R-CNN検出器を用いてオブジェクト特徴量を抽出する。
オブジェクト特徴量は、トップ-Kバウンディングボックス（K=10）から、2次元特徴マップ上のRoIAlignを用いて抽出され、その後最大プーリングされ、ゲート付き特徴統合器（GFA）モジュールに供給される。
GFAモジュールは、学習可能なゲートを通じてクリップ特徴量とオブジェクト特徴量をゲートし、統合することで、動的な相互作用を可能にし、訓練中の勾配爆発を軽減する。
GFAは正規化およびスケーリング操作（タイプA/B）を用い、特徴統合の安定化と表現品質の向上を図る。
最終的な統合特徴量は、動詞と名詞の分類を独立して行い、行動予測は動詞と名詞の確率の積から得られ、学習頻度に基づいて再重み付けされる。
モデルはSGDとモーメンタムを用いてエンドツーエンドで訓練され、最終的な提出では、全訓練セットで訓練された複数のモデルのアンサンブルが使用された。

実験結果

リサーチクエスチョン

RQ1物体検出特徴量は、エゴセントリック動画の動作認識における名詞認識の精度をどのように向上させるか？
RQ2学習可能な統合モジュール（ゲート付き特徴統合器）は、クリップ特徴量とオブジェクト特徴量間の特徴相互作用を強化し、訓練を安定化させることができるか？
RQ3動画クリップの周囲のコンテキストフレームを組み込むことで、物体検出特徴量のモーションブラーおよび隠蔽に対するロバストネスが向上するか？
RQ4提案手法は、EPIC-Kitchensの見ているおよび見ていなかったテストセットにおいて、ベースラインの3D CNNおよび2ストリームモデルと比較して、どのように差がつくか？
RQ5行動頻度に基づく再重み付け戦略が、最終的な動作認識性能にどの程度寄与するか？

主な発見

提案手法は、見ているテストセットにおいて、動詞認識でトップ1正答率69.80%、トップ5正答率90.95%を達成し、ベースラインの2ストリームI3Dモデルより8.36ポイント高い性能を示した。
名詞認識においては、未見のテストセット（s1）でトップ1正答率52.27%、トップ5正答率76.71%を達成し、バリデーションセットのベースライン39.09%トップ1正答率に対して顕著な向上を示した。
ResNet-50を用い、2048次元のオブジェクト特徴量を使用した場合、タイプA/Bの操作を施したゲート付き特徴統合器（GFA）は、ベースラインに比べてトップ1名詞正答率を最大7.92ポイント向上させた。
行動頻度に基づく再重み付け戦略により、トレイン/バリデーション分割においてトップ1正答率が1.30ポイント、トップ5正答率が1.71ポイント向上した。
最終的なアンサンブルモデルは、見ている（s1）および未見（s2）のテストセットの両方で最先端の性能を達成し、s1ではトップ1行動正答率41.37%、s2では25.06%を記録した。
アブレーションスタディの結果、GFAは単純な特徴量連結よりも効果的であり、コンテキストフレームの使用は、モーションブラーおよび隠蔽下でもオブジェクト特徴量のロバストネスを向上させたことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。