QUICK REVIEW

[論文レビュー] STAIR Actions: A Video Dataset of Everyday Home Actions

Yuya Yoshikawa, Jiaqing Lin|arXiv (Cornell University)|Apr 12, 2018

Human Pose and Action Recognition参考文献 17被引用数 30

ひとこと要約

本論文では、100種類の細分化された日常的で家庭内での行動を含み、カテゴリごとに約1,000本の動画を有し、合計102,462本の動画を含む大規模な動画データセット「STAIR Actions」を紹介する。このデータセットにより、深層学習モデルの有効な訓練が可能となり、30フレームのクリップを用いた3D ResNet-34ではトップ1正答率76.5％を達成し、家庭環境における行動認識の分野で優れた性能を示している。

ABSTRACT

A new large-scale video dataset for human action recognition, called STAIR Actions is introduced. STAIR Actions contains 100 categories of action labels representing fine-grained everyday home actions so that it can be applied to research in various home tasks such as nursing, caring, and security. In STAIR Actions, each video has a single action label. Moreover, for each action category, there are around 1,000 videos that were obtained from YouTube or produced by crowdsource workers. The duration of each video is mostly five to six seconds. The total number of videos is 102,462. We explain how we constructed STAIR Actions and show the characteristics of STAIR Actions compared to existing datasets for human action recognition. Experiments with three major models for action recognition show that STAIR Actions can train large models and achieve good performance. STAIR Actions can be downloaded from http://actions.stair.center

研究の動機と目的

看護、介護、セキュリティなどの実世界の応用を想定し、細分化された日常的で家庭内での行動を対象とした大規模かつバランスの取れた動画データセットの開発。
既存のデータセットの限界を克服するため、一般またはスポーツ関連の行動ではなく、分野特化的で実用的な行動カテゴリに焦点を当てる。
多様で高品質でバランスの取れたデータセットを提供することで、行動認識のための大規模な深層ニューラルネットワーク（DNN）の有効な訓練を可能にする。
最先端の行動認識モデルの性能をこの新しいデータセット上で評価し、その有用性とスケーラビリティを検証する。

提案手法

データセットは、YouTube動画とクラウドソーシングによる動画作成を組み合わせて構築され、多様性と現実世界での関連性が確保された。
日常的な家庭内活動に関連する基本的な日本語の動詞に基づいて100の行動カテゴリを選定し、細分化された実用的なラベル付けを実現した。
各動画は5〜6秒（範囲3〜10秒）にトリミングされ、1つのクリップにつき1つの行動ラベルが付与され、一貫性と曖昧さの低減が図られた。
性能ベンチマークの目的で、2ストリームCNN、3D CNN（ResNet-34）、およびLRCNという3つの主要な深層学習アーキテクチャをデータセット上で訓練した。
サンプル期間を16、30、60フレームに変更し、モデルの正答率および学習安定性への影響を評価した。
200エポックにわたる訓練における標準的な指標（トップ1正答率、検証損失）を用いてデータセットを評価した。

実験結果

リサーチクエスチョン

RQ1細分化された家庭内行動を対象とした大規模かつバランスの取れた動画データセットは、行動認識のための深層ニューラルネットワークの訓練に有効に機能するか？
RQ2STAIR Actionsは、Kinetics、ActivityNet、UCF101といった既存のデータセットと比較して、カテゴリの特化度、動画品質、モデル性能の面でどのように異なるか？
RQ3短い日常的で家庭内での動画に適用する際、行動認識モデルの最適なサンプル期間は何か？
RQ43D CNNは、パラメータ数が多く、過学習のリスクを伴うにもかかわらず、STAIR Actionsで競争力ある性能を達成できるか？
RQ52ストリーム、3D CNN、LRCNといった異なるモデルアーキテクチャは、この新しいデータセット上で標準ベンチマークと比較してどのように性能を発揮するか？

主な発見

30フレームのクリップを用いた3D ResNet-34モデルは、STAIR Actionsでトップ1正答率76.5％を達成し、Kineticsでの報告値60.1％を上回った。
30フレームのサンプル期間が、重要な行動の瞬間を捉えるのと不要な内容を避けるという点で、最良の妥協点を提供した。
2ストリームCNNは、STAIR Actionsで平均融合正答率73.7％を達成し、空間的および時間的特徴の両方に対して優れた性能を示した。
3D CNNの学習は安定した収束を示し、30フレームのクリップを用いた200エポック目で検証損失0.9816、正答率76.46％を記録した。
STAIR Actionsは、3D ResNet-34のような大規模モデルの有効な訓練を可能にした。これは、スケーラブルな行動認識研究におけるその有用性を裏付けた。
データセットのバランスの取れた分布と日常的で家庭内での行動に特化した性質から、医療、セキュリティ、ロボット工学分野への応用に特に適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。