[论文解读] SMV-EAR: Bring Spatiotemporal Multi-View Representation Learning into Efficient Event-Based Action Recognition
SMV-EAR 提出一种平移不变的时空多视图表示用于事件驱动的动作识别,配合双分支动态融合和多样化的时间扭曲增强,在三个 EAR 基准上实现了最先进的结果,同时降低了计算量和参数量。
Event cameras action recognition (EAR) offers compelling privacy-protecting and efficiency advantages, where temporal motion dynamics is of great importance. Existing spatiotemporal multi-view representation learning (SMVRL) methods for event-based object recognition (EOR) offer promising solutions by projecting H-W-T events along spatial axis H and W, yet are limited by its translation-variant spatial binning representation and naive early concatenation fusion architecture. This paper reexamines the key SMVRL design stages for EAR and propose: (i) a principled spatiotemporal multi-view representation through translation-invariant dense conversion of sparse events, (ii) a dual-branch, dynamic fusion architecture that models sample-wise complementarity between motion features from different views, and (iii) a bio-inspired temporal warping augmentation that mimics speed variability of real-world human actions. On three challenging EAR datasets of HARDVS, DailyDVS-200 and THU-EACT-50-CHL, we show +7.0%, +10.7%, and +10.2% Top-1 accuracy gains over existing SMVRL EOR method with surprising 30.1% reduced parameters and 35.7% lower computations, establishing our framework as a novel and powerful EAR paradigm.
研究动机与目标
- 通过利用能比帧状聚合更有效捕捉运动线索的时空多视图表示,推动高精度的事件驱动动作识别(EAR)
- 开发一个平移不变的 SMVRL 流程,将稀疏事件处理为 H-W、T-H、T-W 视图,且不依赖平移不变的空间分箱
- 设计一个双分支动态融合机制,在尊重视图语义差异的同时利用样本级视图互补性
- 引入生物启发的时间扭曲增强,以模拟现实世界动作的速度变动并提升泛化能力
- 在具有挑战性的 EAR 数据集上展示更高的准确性和效率,同时保持模型尺寸紧凑、计算负担更低
提出的方法
- 平移不变的时空多视图(TISM)表示通过全局、无分箱的窗口和使用求和聚合的平移不变测量,将稀疏事件沿 T-H 和 T-W 轴转换为二维映射。
- 双分支动态跨视图融合(DDCF)对 F_th 和 F_tw 采用独立分支,并通过跨视图注意力学习样本级融合权重,以利用视图互补性。
- 通过全局池化特征 S 进入多头注意力块学习动态融合权重 w_th 和 w_tw,实现样本特定的融合。
- Diverse Temporal Warping(DTW)增强通过在随机区间内对事件时间戳进行多种非均匀函数(恒等、线性、幂、指数、余弦)扭曲来模拟速度变异,同时保持顺序与连续性。
- 端到端在三个 EAR 数据集(HARDVS、DailyDVS-200、THU-EACT-50-CHL)上进行训练,并与最先进的 SMVRL 方法进行对比,同时通过消融验证各组件的贡献。
实验结果
研究问题
- RQ1相比于传统帧状表示,平移不变的时空多视图表示能否提升 EAR 的判别力?
- RQ2在尊重视图语义和样本级互补性的前提下,双分支动态融合是否优于早期融合策略在多视图 EAR 的表现?
- RQ3引入多样化的时间扭曲增强是否更好地建模现实世界动作的速度变异并提高泛化?
- RQ4在标准 EAR 基准上应用 TISM、DDCF、DTW 时,准确率与参数量和 FLOPs 的权衡关系如何?
主要发现
- SMV-EAR 相对于基线 MVF-Net,在 HARDVS、DailyDVS-200、THU-EACT-50-CHL 数据集上取得显著的 Top-1 准确率提升。
- 平移不变的 TISM 表示为 T-H 和 T-W 视图提供了具有辨识力且对平移鲁棒的特征。
- DDCF 通过样本级动态加权实现跨视图有效交互,优于单分支和早期级联的基线。
- DTW 增强通过非均匀时间扭曲建模多样的动作速度,从而提升鲁棒性和准确性。
- 在各基准上,SMV-EAR 以显著更低的参数量(约少 30%)和 MACs(约下降 36%)相比基线 SMVRL 方法 MVF-Net,带来更高的准确率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。