[论文解读] A Closer Look at Spatiotemporal Convolutions for Action Recognition
本文通过实证分析各种时空卷积用于动作识别,并提出 R(2+1)D 模块,在 Sports-1M、Kinetics、UCF101 和 HMDB51 上实现了最先进的结果。它证明将 3D 卷积分解为独立的空间和时间分量可以提升准确性与优化性,混合与 (2+1)D 变体提供权衡。
In this paper we discuss several forms of spatiotemporal convolutions for video analysis and study their effects on action recognition. Our motivation stems from the observation that 2D CNNs applied to individual frames of the video have remained solid performers in action recognition. In this work we empirically demonstrate the accuracy advantages of 3D CNNs over 2D CNNs within the framework of residual learning. Furthermore, we show that factorizing the 3D convolutional filters into separate spatial and temporal components yields significantly advantages in accuracy. Our empirical study leads to the design of a new spatiotemporal convolutional block "R(2+1)D" which gives rise to CNNs that achieve results comparable or superior to the state-of-the-art on Sports-1M, Kinetics, UCF101 and HMDB51.
研究动机与目标
- 评估不同时空卷积(2D、3D、混合和 (2+1)D)对动作识别性能的影响。
- 评估将 3D 卷积分解成独立的空间和时间步骤对优化与准确性的影响。
- 在大规模数据集上,在 ResNet 架构中引入并验证 R(2+1)D 模块。
- 与 Sports-1M、Kinetics、UCF101 和 HMDB51 的最新方法进行比较。
- 提供关于片段长度、训练策略以及实际中的视频级预测的见解。
提出的方法
- 系统地评估多种卷积变体:R2D(对剪辑进行 2D 处理)、f-R2D(对帧进行 2D 处理)、R3D(3D)、MCx/rMCx(混合 3D-2D)以及 ResNets 中的 R(2+1)D((2+1)D)。
- 提出将每个 3D 过滤器 Ni×t×d×d 替换为一个 2D 空间过滤器 Ni×1×d×d,随后再接一个 1D 时间过滤器 Mi×t×1×1,且在通道维度上与 3D 进行参数匹配的 (2+1)D 区块。
- 通过训练与测试误差比较分析优化性与非线性容量,展示与全 3D 相比,(2+1)D 更易优化且具有更大非线性容量。
- 在大型基准(Sports-1M、Kinetics)上评估,并转移到 UCF101/HMDB51,使用片段级和视频级指标。
- 预训练/微调策略与片段长度实验,用于研究视频级准确性与片段级准确性。
实验结果
研究问题
- RQ1卷积网络中的时序建模是否能在帧级或仅 2D 模型之上提升动作识别?
- RQ2将 3D 卷积分解为独立的空间和时间分量是否能提升准确性与优化?
- RQ3混合与 (2+1)D 架构在大规模动作识别数据集上与完整 3D CNN 相比如何?
- RQ4片段长度和片段数量对视频级预测性能有何影响?
主要发现
| Net | 参数量 | Clip@1(8 帧) | Video@1(8 帧) | Clip@1(16 帧) | Video@1(16 帧) |
|---|---|---|---|---|---|
| R2D | 11.4M | 46.7 | 59.5 | 47.0 | 58.9 |
| f-R2D | 11.4M | 48.1 | 59.4 | 50.3 | 60.5 |
| R3D | 33.4M | 49.4 | 61.8 | 52.5 | 64.2 |
| MC2 | 11.4M | 50.2 | 62.5 | 53.1 | 64.2 |
| MC3 | 11.7M | 50.7 | 62.9 | 53.7 | 64.7 |
| MC4 | 12.7M | 50.5 | 62.5 | 53.7 | 65.1 |
| MC5 | 16.9M | 50.3 | 62.5 | 53.7 | 65.1 |
| rMC2 | 33.3M | 49.8 | 62.1 | 53.1 | 64.9 |
| rMC3 | 33.0M | 49.8 | 62.3 | 53.2 | 65.0 |
| rMC4 | 32.0M | 49.9 | 62.3 | 53.4 | 65.1 |
| rMC5 | 27.9M | 49.4 | 61.2 | 52.1 | 63.1 |
| R(2+1)D | 33.3M | 52.8 | 64.8 | 56.8 | 68.0 |
- R(2+1)D 在 Kinetics 的 8 帧和 16 帧输入中始终达到所测试变体中的最佳准确性(Clip@1:52.8–56.8;Video@1:64.8–68.0)。
- (2+1)D 分解在准确性和优化方面优于完整 3D 卷积,尤其随着网络深度增加时。
- 在 Sports-1M 上,RGB 32 帧 R(2+1)D 实现 57.0% clip@1 和 73.0% video@1,超过 C3D 和 P3D 基线;视频级准确性达到 73.3%(记录的最佳)。
- 在 Kinetics 上,当从 RGB 从头训练时,R(2+1)D 超过 I3D 和其他基线,在 Sports-1M 预训练提供迁移优势。
- 更长的输入剪辑提高片段级准确性,但视频级增益趋于饱和,最佳视频性能通过对多个剪辑的预测进行平均获得。
- 相较于 R3D,R(2+1)D 在训练与测试损失动态方面表现更有利,尤其在更深的网络中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。