[论文解读] Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification
本文提出了一种完全基于注意力机制的框架——Attention Clusters,该框架在不依赖时间建模的情况下整合局部视频特征。通过使用可学习的注意力聚类并引入移位操作以增强特征多样性,该方法在Kinetics数据集上取得了最先进性能——top-1准确率为79.4%,top-5准确率为94.0%,优于多个强基线模型,并在ActivityNet Kinetics Challenge 2017中夺冠。
Recently, substantial research effort has focused on how to apply CNNs or RNNs to better extract temporal patterns from videos, so as to improve the accuracy of video classification. In this paper, however, we show that temporal information, especially longer-term patterns, may not be necessary to achieve competitive results on common video classification datasets. We investigate the potential of a purely attention based local feature integration. Accounting for the characteristics of such features in video classification, we propose a local feature integration framework based on attention clusters, and introduce a shifting operation to capture more diverse signals. We carefully analyze and compare the effect of different attention mechanisms, cluster sizes, and the use of the shifting operation, and also investigate the combination of attention clusters for multimodal integration. We demonstrate the effectiveness of our framework on three real-world video classification datasets. Our model achieves competitive results across all of these. In particular, on the large-scale Kinetics dataset, our framework obtains an excellent single model accuracy of 79.4% in terms of the top-1 and 94.0% in terms of the top-5 accuracy on the validation set. The attention clusters are the backbone of our winner solution at ActivityNet Kinetics Challenge 2017. Code and models will be released soon.
研究动机与目标
- 探究在标准数据集上,长期时间模式是否对视频分类任务至关重要。
- 开发一种完全基于注意力机制的方法,用于整合局部视频特征,且不依赖RNN或CNN进行时间建模。
- 通过注意力机制自然处理无序、相似且可局部识别的特征,提升特征融合效果。
- 通过在注意力聚类机制中引入新颖的移位操作,增强表征多样性。
- 在单模态与多模态视频分类任务中均实现具有竞争力的性能。
提出的方法
- 该方法使用可学习的查询向量对从视频帧中提取的局部特征进行注意力计算,形成注意力聚类。
- 每个聚类通过缩放点积注意力机制计算局部特征的加权平均,聚合冗余且相似的特征。
- 引入移位操作,在聚类前对特征位置进行置换,以提升多样性并改善模型泛化能力。
- 通过分别对RGB、光流和音频特征应用独立的注意力聚类,再进行融合,该框架支持多模态融合。
- 注意力机制应用于无序的局部特征集合,使其对时间顺序的置换具有鲁棒性,适用于整体视频表征。
- 模型采用交叉熵损失进行端到端训练,且在引入移位操作后收敛速度更快。
实验结果
研究问题
- RQ1在不建模长期时间依赖关系的前提下,视频分类性能是否仍具竞争力?
- RQ2完全基于注意力机制的局部特征融合机制在视频分类任务中效果如何?
- RQ3移位操作对注意力聚类多样性及模型准确率有何影响?
- RQ4不同聚类大小与注意力机制在各模态上的性能表现如何?
- RQ5当使用相同的局部特征时,注意力聚类是否能超越现有融合方法?
主要发现
- 所提出的Attention Clusters框架在Kinetics验证集上取得了79.4%的top-1准确率和94.0%的top-5准确率,为单模型设定新的最先进水平。
- 移位操作显著提升了训练稳定性和准确率,尤其在较大聚类规模下,通过增强特征多样性实现。
- 在引入移位操作后,注意力聚类在RGB特征上的top-1准确率比TSN基线高出2.0%,在光流特征上高出1.5%,在音频特征上高出2.6%。
- 最优多模态融合配置为RGB使用64个聚类,光流和音频各使用32个聚类,在UCF101上达到94.6%的准确率,在HMDB51上达到69.2%的准确率。
- 该方法在UCF101、HMDB51和Kinetics数据集上均优于多个强基线和最先进方法,包括两流和三流融合网络。
- 在Flash–MNIST上的可视化结果表明,注意力聚类能有效聚焦于关键且信息丰富的局部特征,同时抑制冗余特征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。