QUICK REVIEW

[論文レビュー] Few-shot Action Recognition via Improved Attention with Self-supervision

Hongguang Zhang, Li Zhang|arXiv (Cornell University)|Jan 12, 2020

Human Pose and Action Recognition参考文献 25被引用数 3

ひとこと要約

本稿では、C3Dベースのエンコーダーに順列不変プーリングと自己教師付き空間時間的アテンションを組み合わせることで、変動するアクション長や時間的分布シフトに対して頑健な少数ショット動画アクション認識手法を提案する。自己教師学習によりブロックの順列変更に対して不変となるようにアテンション機構を訓練することで、HMDB51、UCF101、およびminiImageNet-101（miniMIT）で最先端の性能を達成した。

ABSTRACT

Many few-shot learning models focus on recognising images. In contrast, we tackle a challenging task of few-shot action recognition from videos. We build on a C3D encoder for spatio-temporal video blocks to capture short-range action patterns. Such encoded blocks are aggregated by permutation-invariant pooling to make our approach robust to varying action lengths and long-range temporal dependencies whose patterns are unlikely to repeat even in clips of the same class. Subsequently, the pooled representations are combined into simple relation descriptors which encode so-called query and support clips. Finally, relation descriptors are fed to the comparator with the goal of similarity learning between query and support clips. Importantly, to re-weight block contributions during pooling, we exploit spatial and temporal attention modules and self-supervision. In naturalistic clips (of the same class) there exists a temporal distribution shift--the locations of discriminative temporal action hotspots vary. Thus, we permute blocks of a clip and align the resulting attention regions with similarly permuted attention regions of non-permuted clip to train the attention mechanism invariant to block (and thus long-term hotspot) permutations. Our method outperforms the state of the art on the HMDB51, UCF101, miniMIT datasets.

研究の動機と目的

1つのアクションクラスあたりのラベル付き例が極めて限られている少数ショット動画アクション認識の課題に対処すること。
自然な動画クリップにおいて、判別的アクションホットスポットの位置が変動するという、変動するアクション長と時間的分布シフトの問題を克服すること。
プールドされた空間時間的特徴を組み合わせて関係記述子を構成することで、クエリとサポートクリップの表現学習を向上させること。
自己教師付きコントラスト学習により、ブロック順序に対して不変となるようにアテンション機構を強化すること。
ベンチマークとしての少数ショット動画アクション認識データセットで最先端の性能を達成すること。

提案手法

C3Dエンコーダーを用いて、動画クリップから空間時間的特徴を抽出し、短距離のアクションパターンを捉える。
順列不変プーリングを適用して符号化された動画ブロックを統合し、アクション持続時間の変動や長距離依存性に対してモデルの頑健性を高める。
空間的および時間的アテンションモジュールを導入し、プールング中にブロックの寄与度を再重み付けすることで、判別的領域に注目する。
ブロックを並べ替えたクリップと元のクリップの間でアテンションマップを一致させることで、自己教師学習によりアテンション機構を訓練する。
クエリとサポートクリップの表現を組み合わせることで関係記述子を構築し、類似度学習を可能にする。
学習された関係記述子に基づいて、クエリとサポートクリップ間の類似度スコアを予測するコンパレータを用いる。

実験結果

リサーチクエスチョン

RQ1自己教師学習によるアテンション機構の訓練は、自然な動画クリップにおける時間的分布シフトに対してモデルの頑健性を向上させるか？
RQ2順列不変プーリングは、動画クリップにおける変動する長さのアクションにわたる一般化性能をどの程度向上させるか？
RQ3提案された関係記述子は、少数ショットアクション分類のための判別的空間時間的パターンをどの程度効果的に捉えられるか？
RQ4空間的および時間的アテンションの統合は、ベースライン手法と比較して少数ショット動画ベンチマークにおける性能を向上させるか？
RQ5最小限のラベル付き例で多様なアクションクラスに一般化可能であり、アクション長の変動に対しても頑健性を維持できるか？

主な発見

提案手法はHMDB51データセットで最先端の性能を達成し、従来手法を上回った。
UCF101データセットでは、限られたサポート例で多様なアクションクラスにわたる優れた一般化能力を示した。
miniMIT（miniImageNet-101）ベンチマークでも、動画少数ショット学習への強い汎化能力を示し、新たな最先端の結果を達成した。
ブロックの順列変更を用いた自己教師学習によるアテンションの訓練は、自然な動画クリップにおける時間的分布シフトに対してモデルの頑健性を顕著に向上させた。
順列不変プーリングと関係記述子学習の組み合わせにより、クエリ・サポートマッチングのためのより判別的な特徴表現が得られた。
自己教師学習で訓練されたアテンション機構はブロック順序に対して不変となり、変動する長さのアクションにわたる一般化性能が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。