[论文解读] A Better Baseline for AVA
在 Kinetics 上预训练的时空 I3D 特征之上,利用 Faster R-CNN 的 AVA 动作定位简单基线,在 AVA v2.1 验证集和 CVPR 2018 测试提交上达到最先进的结果。
We introduce a simple baseline for action localization on the AVA dataset. The model builds upon the Faster R-CNN bounding box detection framework, adapted to operate on pure spatiotemporal features - in our case produced exclusively by an I3D model pretrained on Kinetics. This model obtains 21.9% average AP on the validation set of AVA v2.1, up from 14.5% for the best RGB spatiotemporal model used in the original AVA paper (which was pretrained on Kinetics and ImageNet), and up from 11.3 of the publicly available baseline using a ResNet101 image feature extractor, that was pretrained on ImageNet. Our final model obtains 22.8%/21.9% mAP on the val/test sets and outperforms all submissions to the AVA challenge at CVPR 2018.
研究动机与目标
- 通过一个简单而强大的基线,推动 AVA 上的动作定位能力提升。
- 研究预训练、数据增强和边界框回归等设计选择在 AVA 上的影响。
- 展示从 I3D 到最终分类中保留时空结构的有效性。
提出的方法
- 从在 Kinetics 上预训练的 I3D 特征开始,直到 Mixed_4f。
- 用区域建议网络(RPN)提取中心帧的 RoI 提案。
- 在时间维度上使用 RoIPool 将提案在时间上复制,形成 4-D 区域特征。
- 用剩余的 I3D 模块(直到 Mixed_5c)对每个动作类别使用独立的 sigmoid 进行区域特征分类。
- 对每个类别应用与类别无关的边界框回归和 NMS,保留前 300 个框。
- 通过数据增强和预训练进行训练,并可选地将来自 JFT 预训练的 ResNet-101 的全局场景特征连接起来。
实验结果
研究问题
- RQ1一个使用一致的 I3D 特征的简化时空管线是否能在 AVA 上超越基于 RGB 的基线?
- RQ2预训练、数据增强和边界框回归选择如何影响 AVA 的性能?
- RQ3在 AVA 的动作定位中,包含场景上下文的贡献有多大?
主要发现
| 方法 | 验证 mAP |
|---|---|
| ResNet-based model [1] | 11.3 |
| RGB only [4] | 14.5 |
| RGB + Flow [4] | 15.6 |
| Ours | 21.9 |
| Ours + JFT | 22.8 |
- 验证集 mAP 从 11.3%(ResNet 基线)提高到 21.9%(所提出的方法)。
- 在 Kinetics 上的预训练比从头训练提升约 2%。
- 无类别的边界框回归相比有类别的回归大约提升 4%。
- 数据增强(翻转、裁剪)带来近 5% 的性能提升。
- 通过 JFT 预训练特征引入全图场景上下文可再增约 0.9% 的收益。
- 在 AVA 测试集上,测试 mAP 达到 21.91%(Our + JFT)和 21.03%(挑战提交),超越所有 CVPR 2018 提交。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。