[论文解读] Attentional Pooling for Action Recognition
引入一种注意力池化模块,学习图像特定的注意力图以对空间特征加权,在图像和视频上的动作识别性能提升,成本几乎不增加。它在MPII、HMDB51和HICO上取得了最先进或具有竞争力的结果,并分析了注意力与二阶池化之间的关系。
We introduce a simple yet surprisingly powerful model to incorporate attention in action recognition and human object interaction tasks. Our proposed attention module can be trained with or without extra supervision, and gives a sizable boost in accuracy while keeping the network size and computational cost nearly the same. It leads to significant improvements over state of the art base architecture on three standard action recognition benchmarks across still images and videos, and establishes new state of the art on MPII dataset with 12.5% relative improvement. We also perform an extensive analysis of our attention module both empirically and analytically. In terms of the latter, we introduce a novel derivation of bottom-up and top-down attention as low-rank approximations of bilinear pooling methods (typically used for fine-grained classification). From this perspective, our attention formulation suggests a novel characterization of action recognition as a fine-grained recognition problem.
研究动机与目标
- 提出一种用于动作识别的注意力机制,可以有监督或无额外监督进行训练。
- 将注意力并入标准CNN,计算开销极低。
- 展示注意力池化与低秩双线性池化解释的一致性,并提升基准性能。
- 分析姿态监督如何影响注意力,特别是在具有非典型帧的视频数据中。
提出的方法
- 将注意力池化推导为二阶池化的秩-1近似,能够得到自下而上的显著性图Xb和自上而下的类特异图Xa。
- 将注意力模块实现为CNN中标准池化的替代,通过 h = Xb 产生带注意力权重的特征,score = a^T(X^T h)。
- 通过权重Wk或a_k实现类特异性(自上而下的)注意力,同时共享用于显著性的无类别依赖的自下而上分量b。
- 通过添加姿态预测头将模型扩展为姿态正则化注意力,在测试时不需要姿态信息也能引导注意力。
- 探索架构选择,包括基础网络(ResNet-101 与 BN-Inception)和输入分辨率,以最大化注意力收益。
实验结果
研究问题
- RQ1可以用最少监督学习的注意力机制是否能提升图像和视频的动作识别?
- RQ2自下而上的显著性如何与自上而下的类特异注意力在动作识别中相互作用?
- RQ3姿态引导正则化对注意力和动作识别性能有何影响,特别是对非典型视频帧?
- RQ4注意力池化与二阶/双线性池化有何关系,秩-1近似是否能捕获大部分收益?
- RQ5注意力在不同基础网络和数据集(MPII、HICO、HMDB51)上是否产生一致的增益?
主要发现
- 注意力池化模块在基线的基础上显著提升准确率,且计算量几乎无增加。
- 在MPII上,带姿态正则化的变体获得最佳性能,相比基线和现有方法有明显提升。
- 在HICO上,该方法优于完整图像基线和大多数边界框为基础的方法,显示出强劲的HOI分类能力。
- 在HMDB51上,姿态正则化注意力显著提升RGB单帧性能,成为RGB-only方法中的最新state-of-the-art。
- 通过Xa和Xb实现的秩-1(低秩)注意力等价于双线性/成对注意力机制,将注意力与二阶池化概念联系起来。
- 该方法在ResNet-101和更大空间分辨率下表现最佳;基于Inception的骨干网络由于感受野特性,增益较小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。