Skip to main content
QUICK REVIEW

[論文レビュー] Fire on Motion: Optimizing Video Pass-bands for Efficient Spiking Action Recognition

Shuhan Ye, Yuanbin Qian|arXiv (Cornell University)|Jan 30, 2026
Advanced Memory and Neural Computing被引用数 0
ひとこと要約

この論文は、ビデオタスクにおけるスパイキングニューラルネットワークの時系列パスバンドのミスマッチを診断し、Pass-Band Optimizer (PBO) を導入します。PBOは学習可能な2つのスカラーを持つ小さなプラグアンドプレーフィルターで、時系列応答を再形成し、UCF101で10%超の大幅な改善を、単-modalおよびマルチ-modalのビデオタスクで一貫した改善をもたらします。

ABSTRACT

Spiking neural networks (SNNs) have gained traction in vision due to their energy efficiency, bio-plausibility, and inherent temporal processing. Yet, despite this temporal capacity, most progress concentrates on static image benchmarks, and SNNs still underperform on dynamic video tasks compared to artificial neural networks (ANNs). In this work, we diagnose a fundamental pass-band mismatch: Standard spiking dynamics behave as a temporal low pass that emphasizes static content while attenuating motion bearing bands, where task relevant information concentrates in dynamic tasks. This phenomenon explains why SNNs can approach ANNs on static tasks yet fall behind on tasks that demand richer temporal understanding.To remedy this, we propose the Pass-Bands Optimizer (PBO), a plug-and-play module that optimizes the temporal pass-band toward task-relevant motion bands. PBO introduces only two learnable parameters, and a lightweight consistency constraint that preserves semantics and boundaries, incurring negligible computational overhead and requires no architectural changes. PBO deliberately suppresses static components that contribute little to discrimination, effectively high passing the stream so that spiking activity concentrates on motion bearing content. On UCF101, PBO yields over ten percentage points improvement. On more complex multi-modal action recognition and weakly supervised video anomaly detection, PBO delivers consistent and significant gains, offering a new perspective for SNN based video processing and understanding.

研究の動機と目的

  • ビデオタスク向けのスパイキングニューラルネットワークにおける時系列パスバンドのミスマッチを診断する。
  • 膜積分前の時系列パスバンドを適応させる軽量でプラグアンドプレー式のプリフィルターを開発する。
  • 意味論と境界を保持する一貫性損失で最適化を安定化させる。
  • 単-modal RGBアクション認識とマルチ-modal RGB+DVSビデオ理解(異常検知を含む)での利得を示す。
  • PBOがアーキテクチャ変更なしに効率を向上させることを示す。

提案手法

  • LIFニューロンを時系列の低パスフィルターとしてモデル化し、ビデオタスクでのパスバンドミスマッチを分析する。
  • 膜積分前にY[t] = X[t] - lambda[t] X[t-1]という2タップの時変プリフィルターをPass-Band Optimizer(PBO)として導入する。
  • lambda[t]をlambda[t] = mu + A sin(omega t + phi)としてパラメータ化する。muは[0,1]、Aは0以上、omegaは(0, pi]、phiは実数。omegaは学習可能な生デ parameter からロジスティック写像で導出する。
  • LPTV応答の高調波ベースの見方を導出し、サイドバンドが実効パスバンドをどう形作るかを理解する。
  • 分類損失に加え、一貫性損失を用いたバックボーンの最適化を行い、DCおよび高周波エンドポイントへの忠実性を保ちつつエッジを保持する。
  • uni-modal RGB および multi-modal RGB+DVS ベンチマーク(アクション認識およびビデオ異常検知を含む)で経験的に検証する。
Figure 1 : Temporal power spectra computed over the full UCF101 dataset (Soomro et al., 2012 ) and the effects of different filters. (a) The LIF dynamics act as a low-pass filter, suppressing high-frequency components. (b) Cascading a temporal high-pass with the LIF stage retains high-frequency cont
Figure 1 : Temporal power spectra computed over the full UCF101 dataset (Soomro et al., 2012 ) and the effects of different filters. (a) The LIF dynamics act as a low-pass filter, suppressing high-frequency components. (b) Cascading a temporal high-pass with the LIF stage retains high-frequency cont

実験結果

リサーチクエスチョン

  • RQ1スパイキングダイナミクスの低パスバイアスがビデオタスクのモーション関連情報に与える影響は何か。
  • RQ2膜積分前の軽量で学習可能なプリフィルターは、SNNの時系列パスバンドをタスク関連のモーション指標に再配置できるか。
  • RQ3一貫性正則化を伴う時変パスバンド最適化器は、単-modalおよびマルチ-modalのビデオベンチマークで一貫した改善をもたらすか。
  • RQ4PBOはベースラインSNNおよび非SNNアプローチと比較して、アクション認識とビデオ異常検知でどのような成績を残すか。

主な発見

  • PBOは、単-modalおよびマルチ-modal設定のアクション認識および弱教師付きビデオ異常検知で、顕著かつ一貫した利得をもたらす。
  • UCF101では、既存のSNNバックボーンへアーキテクチャ変更なしで組み込んだ場合に10%超の改善を達成する。
  • RGB-DVS融合では、RGBブランチに接続したときに性能が向上し、単-modalおよびマルチ-modalの両方の設定でいくつかの強力なベースラインより高い精度を達成する。
  • アブレーションにより、一貫性損失と時変パスバンドが安定した最適化とピーク精度に重要であることを示す。
  • 手法は計算オーバーヘッドがほぼないまま、整合性制約により意味論と境界を保持する。
Figure 2 : UCF101 results with a spike-driven transformer (Yao et al., 2023b ) . (a) Top-1 accuracy vs. epoch for three schemes: LIF only (low-pass), High-pass $\rightarrow$ LIF (coarse band-pass), and PBO $\rightarrow$ LIF (ours). (b) Corresponding validation loss. (c) Layer-step spike-ratio surfac
Figure 2 : UCF101 results with a spike-driven transformer (Yao et al., 2023b ) . (a) Top-1 accuracy vs. epoch for three schemes: LIF only (low-pass), High-pass $\rightarrow$ LIF (coarse band-pass), and PBO $\rightarrow$ LIF (ours). (b) Corresponding validation loss. (c) Layer-step spike-ratio surfac

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。