Skip to main content
QUICK REVIEW

[论文解读] A Better Baseline for AVA

Rohit Girdhar, João Carreira|arXiv (Cornell University)|Jul 26, 2018
Human Pose and Action Recognition参考文献 14被引用 44
一句话总结

在 Kinetics 上预训练的时空 I3D 特征之上,利用 Faster R-CNN 的 AVA 动作定位简单基线,在 AVA v2.1 验证集和 CVPR 2018 测试提交上达到最先进的结果。

ABSTRACT

We introduce a simple baseline for action localization on the AVA dataset. The model builds upon the Faster R-CNN bounding box detection framework, adapted to operate on pure spatiotemporal features - in our case produced exclusively by an I3D model pretrained on Kinetics. This model obtains 21.9% average AP on the validation set of AVA v2.1, up from 14.5% for the best RGB spatiotemporal model used in the original AVA paper (which was pretrained on Kinetics and ImageNet), and up from 11.3 of the publicly available baseline using a ResNet101 image feature extractor, that was pretrained on ImageNet. Our final model obtains 22.8%/21.9% mAP on the val/test sets and outperforms all submissions to the AVA challenge at CVPR 2018.

研究动机与目标

  • 通过一个简单而强大的基线,推动 AVA 上的动作定位能力提升。
  • 研究预训练、数据增强和边界框回归等设计选择在 AVA 上的影响。
  • 展示从 I3D 到最终分类中保留时空结构的有效性。

提出的方法

  • 从在 Kinetics 上预训练的 I3D 特征开始,直到 Mixed_4f。
  • 用区域建议网络(RPN)提取中心帧的 RoI 提案。
  • 在时间维度上使用 RoIPool 将提案在时间上复制,形成 4-D 区域特征。
  • 用剩余的 I3D 模块(直到 Mixed_5c)对每个动作类别使用独立的 sigmoid 进行区域特征分类。
  • 对每个类别应用与类别无关的边界框回归和 NMS,保留前 300 个框。
  • 通过数据增强和预训练进行训练,并可选地将来自 JFT 预训练的 ResNet-101 的全局场景特征连接起来。

实验结果

研究问题

  • RQ1一个使用一致的 I3D 特征的简化时空管线是否能在 AVA 上超越基于 RGB 的基线?
  • RQ2预训练、数据增强和边界框回归选择如何影响 AVA 的性能?
  • RQ3在 AVA 的动作定位中,包含场景上下文的贡献有多大?

主要发现

方法验证 mAP
ResNet-based model [1]11.3
RGB only [4]14.5
RGB + Flow [4]15.6
Ours21.9
Ours + JFT22.8
  • 验证集 mAP 从 11.3%(ResNet 基线)提高到 21.9%(所提出的方法)。
  • 在 Kinetics 上的预训练比从头训练提升约 2%。
  • 无类别的边界框回归相比有类别的回归大约提升 4%。
  • 数据增强(翻转、裁剪)带来近 5% 的性能提升。
  • 通过 JFT 预训练特征引入全图场景上下文可再增约 0.9% 的收益。
  • 在 AVA 测试集上,测试 mAP 达到 21.91%(Our + JFT)和 21.03%(挑战提交),超越所有 CVPR 2018 提交。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。