[论文解读] Fire on Motion: Optimizing Video Pass-bands for Efficient Spiking Action Recognition
论文诊断了用于视频的脉冲神经网络中的时域通带错配,并提出 Pass-Band Optimizer (PBO),一种微小的即插即用前滤波器,具有两个可学习标量,可重塑时域响应,在 UCF101 上实现>10% 的显著增益,并在单模态与多模态视频任务中表现出一致的改进。
Spiking neural networks (SNNs) have gained traction in vision due to their energy efficiency, bio-plausibility, and inherent temporal processing. Yet, despite this temporal capacity, most progress concentrates on static image benchmarks, and SNNs still underperform on dynamic video tasks compared to artificial neural networks (ANNs). In this work, we diagnose a fundamental pass-band mismatch: Standard spiking dynamics behave as a temporal low pass that emphasizes static content while attenuating motion bearing bands, where task relevant information concentrates in dynamic tasks. This phenomenon explains why SNNs can approach ANNs on static tasks yet fall behind on tasks that demand richer temporal understanding.To remedy this, we propose the Pass-Bands Optimizer (PBO), a plug-and-play module that optimizes the temporal pass-band toward task-relevant motion bands. PBO introduces only two learnable parameters, and a lightweight consistency constraint that preserves semantics and boundaries, incurring negligible computational overhead and requires no architectural changes. PBO deliberately suppresses static components that contribute little to discrimination, effectively high passing the stream so that spiking activity concentrates on motion bearing content. On UCF101, PBO yields over ten percentage points improvement. On more complex multi-modal action recognition and weakly supervised video anomaly detection, PBO delivers consistent and significant gains, offering a new perspective for SNN based video processing and understanding.
研究动机与目标
- 诊断用于视频任务的脉冲神经网络中的时域通带错配。
- 开发一个轻量级、即插即用的前滤波器,在膜整合前自适应时域通带。
- 通过一致性损失实现优化的稳定性,保持语义和边界。
- 在单模态 RGB 动作识别和多模态 RGB+DVS 视频理解(包括异常检测)上展示增益。
- 展示 PBO 在不改变架构的前提下提升效率。
提出的方法
- 将 LIF 神经元建模为时域低通滤波器,并分析视频任务中的通带错配。
- 引入一个两抽头、时变前滤波器 Y[t] = X[t] - lambda[t] X[t-1],作为在膜整合前的 Pass-Band Optimizer (PBO)。
- 将 lambda[t] 参数化为 lambda[t] = mu + A sin(omega t + phi),其中 mu ∈ [0,1],A >= 0,omega ∈ (0, pi],phi ∈ R;omega 通过学习参数的逻辑映射得到。
- 提出基于谐波的 LPTV 响应视角,以理解边带如何塑形有效通带。
- 以分类损失加上保证 DC 与高频端点保真、并保持边缘的一致性损失来优化骨干网络。
- 在单模态 RGB 和多模态 RGB+DVS 基准上进行经验验证,包括动作识别和视频异常检测。

实验结果
研究问题
- RQ1脉冲动态的低通偏置对视频任务中的运动信息有何影响?
- RQ2在膜整合前的轻量可学习前滤波器是否可以将 SNN 的时域通带重新对齐到与任务相关的运动线索?
- RQ3带有一致性正则化的时变通带优化器是否能在单模态和多模态视频基准上带来一致的改进?
- RQ4与基线 SNN 和非 SNN 方法在动作识别和视频异常检测上,PBO 的表现如何?
主要发现
- PBO 在单模态和多模态设置的动作识别和弱监督视频异常检测中呈现显著且稳定的增益。
- 在 UCF101 上,将 PBO 插入现有的 SNN 骨干中无需架构改变,即可实现>10% 的提升。
- 在 RGB-DVS 融合中,将 PBO 附着到 RGB 分支时性能提升,在单模态和多模态设置下均超过若干强基线。
- 消融分析显示一致性损失和时变通带对稳定优化和峰值准确性的重要性。
- 该方法几乎不增加计算开销,并通过一致性约束保持语义和边界。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。