QUICK REVIEW

[論文レビュー] Spatiotemporal Filtering for Event-Based Action Recognition

Rohan Ghosh, Anupam K. Gupta|arXiv (Cornell University)|Mar 17, 2019

Advanced Memory and Neural Computing参考文献 27被引用数 27

ひとこと要約

本稿では、イベントベースの行動認識のための2段階の時空間フィルタリングフレームワークを提案する。非教師ありSFA（Slow Feature Analysis）にインspiredされたフィルタを用いて、スパイクイベントから直接動きに敏感な特徴を抽出し、DVS Gestureデータセットおよび新たに収集された行動認識データセットにおいて、従来の最先端手法を上回るCNN性能を顕著に向上させる。

ABSTRACT

In this paper, we address the challenging problem of action recognition, using event-based cameras. To recognise most gestural actions, often higher temporal precision is required for sampling visual information. Actions are defined by motion, and therefore, when using event-based cameras it is often unnecessary to re-sample the entire scene. Neuromorphic, event-based cameras have presented an alternative to visual information acquisition by asynchronously time-encoding pixel intensity changes, through temporally precise spikes (10 micro-second resolution), making them well equipped for action recognition. However, other challenges exist, which are intrinsic to event-based imagers, such as higher signal-to-noise ratio, and a spatiotemporally sparse information. One option is to convert event-data into frames, but this could result in significant temporal precision loss. In this work we introduce spatiotemporal filtering in the spike-event domain, as an alternative way of channeling spatiotemporal information through to a convolutional neural network. The filters are local spatiotemporal weight matrices, learned from the spike-event data, in an unsupervised manner. We find that appropriate spatiotemporal filtering significantly improves CNN performance beyond state-of-the-art on the event-based DVS Gesture dataset. On our newly recorded action recognition dataset, our method shows significant improvement when compared with other, standard ways of generating the spatiotemporal filters.

研究の動機と目的

イベントカメラが提供する高時間分解能だが、疎でノイジーかつ非同期的なスパイクデータを用いた行動認識の課題に対処すること。
時間分解能を損なうフレームベース変換手法の限界を克服し、イベントデータのネイティブな時空間構造を活用できないこと。
スパイクイベントから非教師ありの方法で意味のある、動きに不変な時空間特徴を直接学習する前処理ステージを開発すること。
ノイズや不要な変動を低減しながら動きに関連するパターンを保持することで、下流のCNN分類性能を向上させること。
ベンチマーク（DVS Gesture）および新たに収集した行動認識データセットの両方で、手法を検証すること。

提案手法

本手法は2段階のパイプラインを採用する：まず、スパイクイベントの削除に対して不変性を促進するSFAに類似した最適化により、非教師ありで時空間フィルタを学習する。
フィルタは局所的な3次元重み行列であり、イベントデータの時空間的近傍に適用され、動きのパターンを捉えつつ静的または冗長なイベントを抑制する。
フィルタリング処理は多対一のマッピングとして機能し、イベント数を削減しながらも、動きの本質的な時空間構造を保持する。
非線形活性化関数（双曲正接関数）をフィルタ出力に適用することで、照度変動やエッジの鋭さの変化に対する耐性を高める。
フィルタリング後の特徴マップは、その後、教師あり3次元CNNに供給され、抽出された特徴上でエンドツーエンド学習が可能になる。
フィルタ数は、情報圧縮とカテゴリ関連特徴の保持のバランスを取るために調整され、情報ボトルネック原理に整合する。

実験結果

リサーチクエスチョン

RQ1生のイベントデータに対する非教師あり時空間フィルタリングは、フレームベースまたは単純なイベントバンニング手法と比較して、行動認識性能を向上させることができるか？
RQ2SFAにインspiredされたフィルタは、疎で非同期的なイベントストリームから、動きに不変な特徴を効果的に抽出できるか？
RQ32段階の非教師あり／教師ありアプローチは、イベントデータに対するエンドツーエンド学習を上回る性能を発揮するか？
RQ4学習されたフィルタは、ノイズや背景の変動を抑制しながら、どの程度動き関連の情報を保持しているか？
RQ5実世界のイベントデータにおける照度変動やエッジの鋭さの変化に対して、フィルタとその特徴はどの程度頑健か？

主な発見

提案された時空間フィルタリング手法は、DVS Gestureデータセットで最先端の性能を達成し、イベントベース行動認識分野の既存手法を上回る。
新たに収集した行動認識データセットにおいても、標準的なイベントバンニング手法や他のフィルタ生成手法と比較して、分類精度が顕著に向上した。
スパイクイベントの削除に対する不変性最適化により学習されたフィルタは、スパイクイベント数を符号化しないことが示され、イベント密度の変動に対して頑健であることが裏付けられた。
双曲正接非線形関数の使用により、照度やエッジの鋭さの変化に対する不変性が向上し、照明条件の変化にわたる一般化性能が向上した。
2段階アーキテクチャは、カテゴリに無関係な情報を効果的に低減しながらも、動き特徴を保持しており、情報ボトルネック原理と整合的である。
本手法は、動きに敏感な特徴抽出に優れているため、モーションセグメンテーションや時空間特徴マッチングといった下流タスクへもスケーラブルに拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。