QUICK REVIEW

[論文レビュー] SMV-EAR: Bring Spatiotemporal Multi-View Representation Learning into Efficient Event-Based Action Recognition

Rui Fan, Weidong Hao|arXiv (Cornell University)|Jan 24, 2026

Human Pose and Action Recognition被引用数 0

ひとこと要約

SMV-EAR は、イベントベースのアクション認識のための翻訳不変の時空多視点表現を提案し、デュアルブランチの動的フュージョンと多様な時間歪み拡張を備え、計算とパラメータを削減しつつ3つの EAR ベンチマークで最先端の結果を達成します。

ABSTRACT

Event cameras action recognition (EAR) offers compelling privacy-protecting and efficiency advantages, where temporal motion dynamics is of great importance. Existing spatiotemporal multi-view representation learning (SMVRL) methods for event-based object recognition (EOR) offer promising solutions by projecting H-W-T events along spatial axis H and W, yet are limited by its translation-variant spatial binning representation and naive early concatenation fusion architecture. This paper reexamines the key SMVRL design stages for EAR and propose: (i) a principled spatiotemporal multi-view representation through translation-invariant dense conversion of sparse events, (ii) a dual-branch, dynamic fusion architecture that models sample-wise complementarity between motion features from different views, and (iii) a bio-inspired temporal warping augmentation that mimics speed variability of real-world human actions. On three challenging EAR datasets of HARDVS, DailyDVS-200 and THU-EACT-50-CHL, we show +7.0%, +10.7%, and +10.2% Top-1 accuracy gains over existing SMVRL EOR method with surprising 30.1% reduced parameters and 35.7% lower computations, establishing our framework as a novel and powerful EAR paradigm.

研究の動機と目的

スパイオテンポラルなマルチビュー表現を活用して、フレーム風の集約よりも運動情報をより効果的に捉えることで、イベントベースのアクション認識（EAR）の高精度化を動機付ける。
翻訳不変の SMVRL パイプラインを開発し、Translate-variant な空間ビニングに依存せずに sparse なイベントを H-W、T-H、T-W のビューへ処理する。
デュアルブランチの動的フュージョン機構を設計し、ビュー間の意味理解の違いを尊重しつつ、サンプルごとのビュー補完性を活用する。
実世界の動作速度変動を模倣する生体インスパイア tempor al warping 拡張を取り入れ、一般化性能を向上させる。
困難な EAR データセットでの精度と効率を示しつつ、モデルサイズを小さく、計算負荷を低く保つ。

提案手法

翻訳不変の時空多視点（TISM）表現は、グローバルでビンレスなウィンドウと、和の集計を用いた翻訳不変な測定を用いて sparse なイベントを T-H および T-W 軸に沿って 2D マップへ変換する。
Dual-branch Dynamic Cross-view Fusion（DDCF）は F_th と F_tw を別々のブランチで処理し、クロスビュー注意によってサンプルごとのフュージョン重みを学習し、ビューの補完性を活用する。
全球的にプールされた特徴 S からマルチヘッド注意ブロックを通じて動的フュージョン重み w_th および w_tw を学習し、サンプル固有のフュージョンを可能にする。
Diverse Temporal Warping（DTW）拡張は、複数の非均一関数（同一性、線形、べき、指数、余弦）をランダム区間で適用してイベントタイムスタンプを歪ませ、速度変動を模倣しつつ順序と連続性を維持する。
三つの EAR データセット（HARDVS、DailyDVS-200、THU-EACT-50-CHL）でのエンドツーエンド学習を実施し、最先端の SMVRL 手法と比較し、各構成要素の寄与を確認するアブレーションを行う。

実験結果

リサーチクエスチョン

RQ1翻訳不変の時空多視点表現は、従来のフレーム風表現と比較して EAR の識別力を向上させるか。
RQ2ビュー意味とサンプルごとの補完性を尊重するデュアルブランチ動的フュージョン手法は、マルチビュー EAR における早期フュージョン戦略より優れているか。
RQ3多様な時間歪み拡張を導入することは、実世界の動作における速度変動のモデリングと一般化を改善するか。
RQ4TISM、DDCF、DTW を標準的な EAR ベンチマークに適用した際の、精度とパラメータ数・FLOPs のトレードオフはどうなるか。

主な発見

SMV-EAR は HARDVS、DailyDVS-200、THU-EACT-50-CHL のデータセットで、ベースライン MVF-Net に対してTop-1精度の顕著な向上を達成した。
翻訳不変の TISM 表現は、T-H および T-W ビューに対して識別性が高く、翻訳に頑健な特徴を提供する。
DDCF はサンプルごとの動的加重を用いたビュー間の効果的な相互作用を可能にし、単一ブランチおよび早期連結のベースラインを上回る。
DTW 拡張は非均一な時間歪みを通じて多様な動作速度をモデル化し、ロバスト性と精度を向上させる。
ベンチマーク全体で、SMV-EAR は基礎となる SMVRL 手法 MVF-Net に比べてパラメータを約30%削減、MACsを約36%削減しつつ高い精度を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。