QUICK REVIEW

[论文解读] A Better Baseline for AVA

Rohit Girdhar, João Carreira|arXiv (Cornell University)|Jul 26, 2018

Human Pose and Action Recognition参考文献 14被引用 44

一句话总结

在 Kinetics 上预训练的时空 I3D 特征之上，利用 Faster R-CNN 的 AVA 动作定位简单基线，在 AVA v2.1 验证集和 CVPR 2018 测试提交上达到最先进的结果。

ABSTRACT

We introduce a simple baseline for action localization on the AVA dataset. The model builds upon the Faster R-CNN bounding box detection framework, adapted to operate on pure spatiotemporal features - in our case produced exclusively by an I3D model pretrained on Kinetics. This model obtains 21.9% average AP on the validation set of AVA v2.1, up from 14.5% for the best RGB spatiotemporal model used in the original AVA paper (which was pretrained on Kinetics and ImageNet), and up from 11.3 of the publicly available baseline using a ResNet101 image feature extractor, that was pretrained on ImageNet. Our final model obtains 22.8%/21.9% mAP on the val/test sets and outperforms all submissions to the AVA challenge at CVPR 2018.

研究动机与目标

通过一个简单而强大的基线，推动 AVA 上的动作定位能力提升。
研究预训练、数据增强和边界框回归等设计选择在 AVA 上的影响。
展示从 I3D 到最终分类中保留时空结构的有效性。

提出的方法

从在 Kinetics 上预训练的 I3D 特征开始，直到 Mixed_4f。
用区域建议网络（RPN）提取中心帧的 RoI 提案。
在时间维度上使用 RoIPool 将提案在时间上复制，形成 4-D 区域特征。
用剩余的 I3D 模块（直到 Mixed_5c）对每个动作类别使用独立的 sigmoid 进行区域特征分类。
对每个类别应用与类别无关的边界框回归和 NMS，保留前 300 个框。
通过数据增强和预训练进行训练，并可选地将来自 JFT 预训练的 ResNet-101 的全局场景特征连接起来。

实验结果

研究问题

RQ1一个使用一致的 I3D 特征的简化时空管线是否能在 AVA 上超越基于 RGB 的基线？
RQ2预训练、数据增强和边界框回归选择如何影响 AVA 的性能？
RQ3在 AVA 的动作定位中，包含场景上下文的贡献有多大？

主要发现

方法	验证 mAP
ResNet-based model [1]	11.3
RGB only [4]	14.5
RGB + Flow [4]	15.6
Ours	21.9
Ours + JFT	22.8

验证集 mAP 从 11.3%（ResNet 基线）提高到 21.9%（所提出的方法）。
在 Kinetics 上的预训练比从头训练提升约 2%。
无类别的边界框回归相比有类别的回归大约提升 4%。
数据增强（翻转、裁剪）带来近 5% 的性能提升。
通过 JFT 预训练特征引入全图场景上下文可再增约 0.9% 的收益。
在 AVA 测试集上，测试 mAP 达到 21.91%（Our + JFT）和 21.03%（挑战提交），超越所有 CVPR 2018 提交。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。