[論文レビュー] Towards Weakly-Supervised Action Localization
本論文は、最先端の検出器と検出に基づくトラッキングを用いて人間のチューブ抽出を行う弱教師付きアクションローカライゼーション手法を提案する。UCF-SportsおよびJ-HMDBで1動画あたり5本未満のチューブで95%のリCALLを達成する。改良されたドメイン密度軌跡を用いたマルチフォールドMultiple Instance Learning(MIL)を活用し、UCF-Sportsで84%のmAP、J-HMDBで54%のmAPを達成。これは完全教師あり性能に近く、330万フレーム、10のアクションを含む大規模なDALYデータセットを新たに導入する。
This paper presents a novel approach for weakly-supervised action localization, i.e., that does not require per-frame spatial annotations for training. We first introduce an effective method for extracting human tubes by combining a state-of-the-art human detector with a tracking-by-detection approach. Our tube extraction leverages the large amount of annotated humans available today and outperforms the state of the art by an order of magnitude: with less than 5 tubes per video, we obtain a recall of 95% on the UCF-Sports and J-HMDB datasets. Given these human tubes, we perform weakly-supervised selection based on multi-fold Multiple Instance Learning (MIL) with improved dense trajectories and achieve excellent results. We obtain a mAP of 84% on UCF-Sports, 54% on J-HMDB and 45% on UCF-101, which outperforms the state of the art for weakly-supervised action localization and is close to the performance of the best fully-supervised approaches. The second contribution of this paper is a new realistic dataset for action localization, named DALY (Daily Action Localization in YouTube). It contains high quality temporal and spatial annotations for 10 actions in 31 hours of videos (3.3M frames), which is an order of magnitude larger than standard action localization datasets. On the DALY dataset, our tubes have a spatial recall of 82%, but the detection task is extremely challenging, we obtain 10.8% mAP.
研究の動機と目的
- 1フレームごとの空間アノテーションを回避する弱教師付きアクションローカライゼーションフレームワークの開発。
- 既存の人物検出アノテーションとトラッキング・バイ・ディテクションを活用して、人間のチューブ抽出精度の向上。
- フレームレベルのアノテーションなしで完全教師あり手法に匹敵する高いアクションローカライゼーション性能を達成すること。
- YouTube動画から構成され、10のアクションクラスを含む、大規模で現実的ないくつかの動画のベンチマークデータセット(DALY)の導入。
提案手法
- スパatiotemporalチューブプロポーザルを生成するために、最先端の人間検出器とトラッキング・バイ・ディテクションパイプラインを組み合わせて人間のチューブを抽出する。
- 既存の大規模な人物検出アノテーションを活用することで、チューブ抽出のリCALLを顕著に向上させ、UCF-SportsおよびJ-HMDBで1動画あたり5本未満のチューブで95%のリCALLを達成する。
- 改良されたドメイン密度軌跡を視覚的特徴として用いたマルチフォールドMultiple Instance Learning(MIL)を用いて、弱教師付きアクションローカライゼーションを実行する。
- MILフレームワークは、チューブおよび動画間で特徴を集約し、動画レベルのラベルのみに基づいてアクションをローカライズする。
- 本手法は標準ベンチマークおよび新たに導入されたDALYデータセット上で評価され、このデータセットには330万フレームと10のアクションクラスが含まれる。
実験結果
リサーチクエスチョン
- RQ1既存の検出アノテーションとトラッキングを活用することで、人間のチューブ抽出を著しく改善でき、弱教師付きアクションローカライゼーションが可能になるか?
- RQ2改良されたドメイン密度軌跡を用いたマルチフォールドMILは、フレームレベルのアノテーションなしでどれほど高いローカライズ精度を達成できるか?
- RQ3本手法は、標準ベンチマークにおいて、最先端の弱教師付きアプローチと比較してどのように性能を発揮するか?
- RQ4YouTubeベースの31時間分の動画と10のアクションクラスを含む大規模で現実的なデータセット(DALY)は、アクションローカライゼーションの意味のあるベンチマークとして機能できるか?
主な発見
- 提案手法によるチューブ抽出は、UCF-SportsおよびJ-HMDBで1動画あたり5本未満のチューブで95%のリCALLを達成し、先行研究を1桁以上上回る性能を示した。
- UCF-Sportsでは、弱教師付きアクションローカライゼーションで84%のmAPを達成し、最先端の手法を上回り、完全教師あり性能に近づいた。
- J-HMDBでは54%のmAPを達成し、このデータセットにおける弱教師付きアクションローカライゼーションで報告された最高の結果となった。
- UCF-101では45%のmAPを達成し、データセットの複雑さにもかかわらず、優れた一般化性能を示した。
- 新たに導入されたDALYデータセットでは、チューブ抽出が82%の空間的リCALLを達成したが、検出は依然として困難であり、10.8%のmAPにとどまった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。