QUICK REVIEW

[论文解读] Initialization Strategies of Spatio-Temporal Convolutional Neural Networks

Elman Mansimov, Nitish Srivastava|arXiv (Cornell University)|Mar 25, 2015

Human Pose and Action Recognition参考文献 18被引用 27

一句话总结

本文通过迁移预训练的2D ImageNet权重，提出了一种新颖的3D卷积层初始化策略，用于时空卷积神经网络，实现了无需从零开始训练即可高效学习时间表征。表现最佳的方法——负权重初始化（NWI）在UCF-101上达到了73.9%的准确率，优于标准的空间卷积神经网络，并在与光流流融合后实现了接近最先进水平的性能（85.3%）。

ABSTRACT

We propose a new way of incorporating temporal information present in videos into Spatial Convolutional Neural Networks (ConvNets) trained on images, that avoids training Spatio-Temporal ConvNets from scratch. We describe several initializations of weights in 3D Convolutional Layers of Spatio-Temporal ConvNet using 2D Convolutional Weights learned from ImageNet. We show that it is important to initialize 3D Convolutional Weights judiciously in order to learn temporal representations of videos. We evaluate our methods on the UCF-101 dataset and demonstrate improvement over Spatial ConvNets.

研究动机与目标

为解决在UCF-101等小规模视频数据集上训练时空卷积神经网络时，从零开始训练导致的过拟合与高计算成本问题。
在无需从零开始训练的前提下，实现将ImageNet预训练的2D卷积神经网络的空间特征有效迁移至3D卷积神经网络，以用于视频动作识别。
探究不同的3D卷积权重初始化方案如何影响模型从视频序列中学习有意义的时间表征的能力。
通过精心设计的权重初始化与复合LSTM模型融合，提升UCF-101上的分类准确率。

提出的方法

提出四种3D卷积核的初始化策略：平均法（IA）、缩放法（IS）、零权重初始化（ZWI）和负权重初始化（NWI），所有方法均源自预训练的2D卷积权重。
通过在初始化时强制满足∑ₜ W³ᴰₜ = W²ᴰ，确保初始化过程保留原始2D层的期望输出范围。
采用约束条件：3D核的所有时间子矩阵之和必须等于原始2D权重矩阵，以维持激活值的稳定性。
使用在UCF-101标注数据和未标注的Sports-1M数据上训练的复合LSTM网络，学习时间序列表征。
通过平均融合方式，将NWI初始化的时空卷积神经网络的Softmax概率与复合LSTM模型的预测结果相结合，以提升性能。
将该方法扩展至双流模型，通过融合基于RGB的NWI+复合LSTM模型与基于光流的模型，实现了最先进性能。

实验结果

研究问题

RQ13D卷积权重初始化策略的选择如何影响时空卷积神经网络学习时间表征的能力？
RQ2能否有效将预训练的2D ImageNet权重迁移至3D卷积神经网络，以提升小规模数据集上的视频动作识别准确率？
RQ3与对称或基于平均的方法相比，使用非均匀或负值初始化3D核是否能增强时间特征学习？
RQ4在使用2D权重初始化3D卷积神经网络并结合如复合LSTM等时间建模组件的情况下，其性能在多大程度上可达到或超越在大规模视频数据集上训练的模型？

主要发现

负权重初始化（NWI）在UCF-101上实现了73.9%的最高准确率，显著优于基线空间卷积神经网络（71.8%）及其他初始化方法。
ZWI初始化方法（将除一个子矩阵外的所有子矩阵设为零）取得了73.3%的准确率，表明非对称初始化有助于学习时间动态特性。
IA与IS方法（分别在时间维度上均匀或按比例分配权重）的准确率仅为72.0%和72.4%，表明对称初始化限制了时间表征的学习能力。
将NWI初始化的RGB模型与基于光流的双流模型融合后，在UCF-101上达到了85.3%的准确率，优于单一模型，且接近最先进性能。
该双流融合模型在不使用额外架构技巧或数据增强的前提下，性能与最佳已知方法（如ConvNet Features + iDT，准确率为89.7%）相当。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。