QUICK REVIEW

[论文解读] Spatiotemporal Filtering for Event-Based Action Recognition

Rohan Ghosh, Anupam K. Gupta|arXiv (Cornell University)|Mar 17, 2019

Advanced Memory and Neural Computing参考文献 27被引用 27

一句话总结

本文提出了一种两阶段时空滤波框架，用于基于事件的动作识别，利用受无监督慢特征分析（SFA）启发的滤波器，直接从脉冲事件中提取对运动敏感的特征，在DVS Gesture数据集和新采集的动作数据集上显著提升了卷积神经网络（CNN）的性能，超越了当前最先进方法。

ABSTRACT

In this paper, we address the challenging problem of action recognition, using event-based cameras. To recognise most gestural actions, often higher temporal precision is required for sampling visual information. Actions are defined by motion, and therefore, when using event-based cameras it is often unnecessary to re-sample the entire scene. Neuromorphic, event-based cameras have presented an alternative to visual information acquisition by asynchronously time-encoding pixel intensity changes, through temporally precise spikes (10 micro-second resolution), making them well equipped for action recognition. However, other challenges exist, which are intrinsic to event-based imagers, such as higher signal-to-noise ratio, and a spatiotemporally sparse information. One option is to convert event-data into frames, but this could result in significant temporal precision loss. In this work we introduce spatiotemporal filtering in the spike-event domain, as an alternative way of channeling spatiotemporal information through to a convolutional neural network. The filters are local spatiotemporal weight matrices, learned from the spike-event data, in an unsupervised manner. We find that appropriate spatiotemporal filtering significantly improves CNN performance beyond state-of-the-art on the event-based DVS Gesture dataset. On our newly recorded action recognition dataset, our method shows significant improvement when compared with other, standard ways of generating the spatiotemporal filters.

研究动机与目标

为解决基于事件相机进行动作识别的挑战，这类相机提供高时间分辨率，但数据稀疏、噪声多且异步。
克服基于帧转换方法的局限性，这些方法会损失时间精度，并且无法充分利用事件数据的本征时空结构。
开发一种预处理阶段，以无监督方式直接从脉冲事件中学习有意义的、对运动不变的时空特征。
通过减少噪声和无关变化来提升下游CNN分类性能，同时保留与运动相关的模式。
在基准数据集（DVS Gesture）和新采集的动作识别数据集上验证该方法。

提出的方法

该方法采用两阶段流程：首先，通过类似SFA的优化方法无监督地学习时空滤波器，该优化目标最小化在移除脉冲事件时的变化，从而实现对事件数量和噪声的不变性。
滤波器为局部3D权重矩阵，作用于事件数据的时空邻域，捕捉运动模式的同时抑制静态或冗余事件。
滤波过程作为多对一映射，减少事件数量，同时保留运动的本征时空结构。
对滤波器输出应用非线性激活（双曲正切函数），增强对光照和边缘锐度变化的鲁棒性。
将滤波后的特征图输入到有监督的3D卷积神经网络中进行动作分类，实现在提取特征上的端到端学习。
滤波器数量通过调优以在信息压缩与保留类别相关特征之间取得平衡，符合信息瓶颈原理。

实验结果

研究问题

RQ1与基于帧或简单事件分箱的方法相比，对原始事件数据进行无监督时空滤波是否能提升动作识别性能？
RQ2SFA启发的滤波在从稀疏、异步事件流中提取运动不变特征方面有多高效？
RQ3两阶段无监督-有监督方法是否优于在事件数据上进行端到端训练的动作识别方法？
RQ4所学习的滤波器在抑制噪声和背景变化的同时，能在多大程度上保留与运动相关的信息？
RQ5在真实世界事件数据中，滤波器和生成的特征对光照和边缘锐度变化的鲁棒性如何？

主要发现

所提出的时空滤波方法在DVS Gesture数据集上实现了最先进性能，优于现有基于事件的动作识别方法。
在新采集的动作识别数据集中，该方法显著提升了分类准确率，优于标准事件分箱和其他滤波生成技术。
通过事件移除不变性优化学习到的滤波器不编码事件数量，表现出对事件密度变化的鲁棒性。
使用双曲正切非线性激活增强了对亮度和边缘锐度变化的不变性，提升了在不同光照条件下的泛化能力。
两阶段架构有效减少了与类别无关的信息，同时保留了运动特征，与信息瓶颈原理一致。
由于其鲁棒且对运动敏感的特征提取能力，该方法在下游任务（如运动分割和时空特征匹配）中也表现出良好的可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。