QUICK REVIEW

[論文レビュー] The AVA-Kinetics Localized Human Actions Video Dataset

Ang Li, Meghana Thotakuri|arXiv (Cornell University)|May 1, 2020

Human Pose and Action Recognition参考文献 10被引用数 84

ひとこと要約

この論文は AVA-Kinetics を紹介し、Kinetics-700 のビデオの一部に AVA 風の局所的なアクション注釈を提供するクロスオーバーデータセットを提案し、ground-truth および検出ボックスの両方を用いて Video Action Transformer Network でアクション分類をベンチマークする。

ABSTRACT

This paper describes the AVA-Kinetics localized human actions video dataset. The dataset is collected by annotating videos from the Kinetics-700 dataset using the AVA annotation protocol, and extending the original AVA dataset with these new AVA annotated Kinetics clips. The dataset contains over 230k clips annotated with the 80 AVA action classes for each of the humans in key-frames. We describe the annotation process and provide statistics about the new dataset. We also include a baseline evaluation using the Video Action Transformer Network on the AVA-Kinetics dataset, demonstrating improved performance for action classification on the AVA test set. The dataset can be downloaded from https://research.google.com/ava/

研究の動機と目的

AVA の局所化アクションラベリングと Kinetics の動画の多様性を組み合わせて汎化性能を向上させるデータセットの作成を動機づける。
AVA-Kinetics の注釈パイプラインと統計を説明する。
AVA-Kinetics に対する Video Action Transformer Network を用いたアクション分類のベースラインを提供する。
Kinetics 主導のデータを増やすことが各クラスの性能と全体の mAP にどのように影響するかを分析する。

提案手法

Kinetics の各ビデオクリップから選択したフレーム上で AVA-スタイルの境界ボックスとアクションを注釈する。
Faster RCNN を用いて人を検出し、検出信頼度が最も高いキーフレームを選択し、欠落したボックスを注釈し、複数の評価者でラベリングするためにキーフレームの周りに 2 秒のクリップを作成する。
少なくとも 3 名の評価者のうち過半数が検証したラベルを保持する。
ground-truth ボックスで Video Action Transformer Network を訓練（テスト時には検出済みボックスと別に訓練）してアクション分類性能を評価する。
Normalization Pointwise Mutual Information (NPMI) を用いて Kinetics と AVA クラス注釈の相関を評価し、個人-物体、個人-姿勢、個人-個人の各カテゴリの性能を検討する。
AVA 対 AVA-Kinetics の訓練データの比較でデータサイズの影響を分析する。

実験結果

リサーチクエスチョン

RQ1Kinetics ビデオに AVA-スタイルの局在化とラベルを付けることで、アクション認識の有用で多様性のある訓練信号が作成されるか。
RQ2AVA、Kinetics、またはそれらの組み合わせで訓練した場合、AVA および AVA-Kinetics テストセットでのアクション分類性能はどうなるか。
RQ3Kinetics由来データサイズと AVA クラス全体の mAP の向上の関係はどうか。
RQ4個人-物体、個人-姿勢、個人-個人の相互作用カテゴリごとに性能傾向はどう異なるか。
RQ5グラウンドトゥルースボックスと検出ボックスを使用した場合、アクション分類性能はどう変わるか。

主な発見

AVA-Kinetics は AVA と Kinetics を結合して Kinetics クリップに AVA-スタイルの局在化を提供し、AVA-スタイルのラベルとともに視覚的多様性を広げる。
Video Action Transformer Network を使用して、AVA-Kinetics で訓練した場合、ground-truth ボックスで評価したときに AVA の val mAP を 5.26 ポイント向上させる。
AVA-Kinetics での訓練は一般化とクラス別性能を一般に改善し、watch、cut、listen、swim などいくつかのクラスで顕著な向上を示す。
検出ボックスを使用した場合、検出機の不完全さのため改善は小さくなるが、それでも AVA の val に対して正の増分を生む。
クラス別分析では、ポーズベースのアクションは比較的容易だが、物体相互作用アクションは依然として難しく、Kinetics データは特に不均衡なクラスの例を増やすのに役立つ。
図8 は多くのクラスが Kinetics のサンプル増加から恩恵を受けることを示しており、例外は 'enter' がわずかに減少する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。