[论文解读] ConvNet Architecture Search for Spatiotemporal Feature Learning
本论文开展了对视频时空特征的经验性ConvNet架构搜索,生成了深度的3D残差卷积网络(Res3D),在多项基准测试中超越C3D,同时更快、体积更紧凑。
Learning image representations with ConvNets by pre-training on ImageNet has proven useful across many visual understanding tasks including object detection, semantic segmentation, and image captioning. Although any image representation can be applied to video frames, a dedicated spatiotemporal representation is still vital in order to incorporate motion patterns that cannot be captured by appearance based models alone. This paper presents an empirical ConvNet architecture search for spatiotemporal feature learning, culminating in a deep 3-dimensional (3D) Residual ConvNet. Our proposed architecture outperforms C3D by a good margin on Sports-1M, UCF101, HMDB51, THUMOS14, and ASLAN while being 2 times faster at inference time, 2 times smaller in model size, and having a more compact representation.
研究动机与目标
- 研究架构选择如何影响视频分类的时空特征学习。
- 开发面向视频数据的深层3D残差结构。
- 限制模型容量,以将改进归因于架构而非规模。
- 证明学习到的表征对多样化视频任务的迁移能力。
提出的方法
- 在ResNet启发空间内对UCF101执行受控的架构搜索。
- 提出Res3D架构(3D-ResNet-18),并在Sports-1M上进行大规模时空学习的训练。
- 在固定参数预算下,系统地评估输入采样率、输入分辨率以及卷积类型(3D vs 2D/2.5D)。
- 与C3D及2D基线进行比较,以评估在准确性、速度和模型大小方面的提升。
实验结果
研究问题
- RQ1哪些架构改动最能提升视频分类的时空特征学习?
- RQ2对于视频表征,3D卷积方法是否优于2D或混合卷积?
- RQ3采样率、输入分辨率和网络深度在容量约束下如何影响性能?
- RQ4学习到的Res3D表示能否泛化到大规模视频基准和不同任务?
主要发现
| Dataset | C3D acc (%) | Res3D acc (%) | Δ acc (%) |
|---|---|---|---|
| Sports-1M | 61.1 | 65.6 | 4.5 |
| UCF101 | 82.3 | 85.8 | 3.5 |
| HMDB51 | 51.6 | 54.9 | 3.3 |
| THUMOS14 | 19.0 | 22.5 | 3.5 |
| ASLAN | 78.3 | 78.8 | 0.5 |
- Res3D在多项基准测试中优于C3D(Sports-1M、UCF101、HMDB51、THUMOS14、ASLAN)。
- 在Sports-1M上,Res3D在非长时建模方法中实现最先进的结果,且比C3D快2倍、模型规模小2倍。
- Res3D在仅RGB的情况下对UCF101和HMDB51的性能优于C3D(例如在表9中相对增益分别为3.5%和3.3%)。
- 在所有层使用3D卷积比混合的3D-2D或2.5D变体具有更好的性能,Res3D的3D设计优势更明显。
- 网络深度在大约18-26层时,对视频分类提供了有利的准确性-速度-内存权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。