[论文解读] Learning Temporal Regularity in Video Sequences
本文提出一种自监督深度自编码器框架,通过有限监督学习视频序列中的时间规律性,结合手工设计的时空特征与端到端卷积自编码器。模型通过重建误差捕捉规律性运动模式,实现异常检测,并在多个数据集上实现优异的泛化性能。
Perceiving meaningful activities in a long video sequence is a challenging problem due to ambiguous definition of 'meaningfulness' as well as clutters in the scene. We approach this problem by learning a generative model for regular motion patterns, termed as regularity, using multiple sources with very limited supervision. Specifically, we propose two methods that are built upon the autoencoders for their ability to work with little to no supervision. We first leverage the conventional handcrafted spatio-temporal local features and learn a fully connected autoencoder on them. Second, we build a fully convolutional feed-forward autoencoder to learn both the local features and the classifiers as an end-to-end learning framework. Our model can capture the regularities from multiple datasets. We evaluate our methods in both qualitative and quantitative ways - showing the learned regularity of videos in various aspects and demonstrating competitive performance on anomaly detection datasets as an application.
研究动机与目标
- 解决在长时、非受控视频序列中识别有意义或显著时刻的挑战,其中‘有意义性’定义不明确。
- 将视频中的时间规律性建模为弱监督或无监督问题,聚焦于普通、规律发生的运动模式。
- 开发一种可泛化的模型,在多个数据集上学习规律性运动动态,而不补偿数据集偏差。
- 支持异常检测、过去/未来帧预测以及异常运动事件定位等应用。
- 证明自编码器能够有效学习并重建规律性时间动态,同时对异常情况分配更高的重建误差。
提出的方法
- 使用全连接自编码器,在手工设计的时空局部特征(如改进的轨迹特征)上进行训练,以学习时间规律性。
- 提出一种全卷积自编码器(Conv-AE),端到端联合学习运动特征与规律性模式,同时保持时空结构。
- 将重建误差用作规律性的代理指标:低误差表示规律运动,高误差表示偏离(潜在异常)。
- 应用persistence1D算法检测规律性得分时间序列中的显著局部极小值,以识别异常事件。
- 使用固定时间窗口(50帧)将重叠的局部极小值聚合成连贯的异常事件区域。
- 可视化学习到的滤波器响应,以解释模型学习到的规律性与异常性检测特征。
实验结果
研究问题
- RQ1自编码器能否在极少监督下有效学习并重建视频中的时间规律性运动模式?
- RQ2与使用预计算特征相比,联合端到端的卷积自编码器在学习局部运动特征与规律性模式方面表现如何?
- RQ3在多个数据集上训练的模型在未见视频上的泛化能力如何,同时保持时间规律性?
- RQ4自编码器的重建误差能否作为检测视频序列中异常事件的可靠信号?
- RQ5自编码器中学习到的滤波器如何对应于感知上有意义的规律与非规律运动模式?
主要发现
- 所提出的Conv-AE模型在异常检测方面表现优异,在UCSD Ped1数据集上EER为43/8,AUC为92.7/16.0,优于该基准的先前方法。
- 在CUHK Avenue数据集上,模型达到EER为45/4,AUC为70.2/25.1,尽管使用了与先前工作不同的数据集版本,仍表现出强劲性能。
- 模型能将跑步或突然运动变化等异常行为识别为高重建误差,即使这些事件在真实标签中未被标记为异常。
- 滤波器可视化显示,浅层学习到细粒度的规律性运动模式,而深层则捕捉更高层次的偏离,证实了分层特征学习机制。
- 该模型支持有意义的下游应用:从视频中生成最规律的帧,从单个输入帧预测过去和未来的规律帧,以及定位参与异常运动的物体。
- 尽管误报数量多于某些SOTA方法,但该模型在识别规律性偏离方面更具全面性,表明对异常动态具有更广泛的敏感性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。