[论文解读] UntrimmedNets for Weakly Supervised Action Recognition and Detection
本文提出UntrimmedNet,一种端到端的弱监督深度学习架构,仅使用视频级别标签即可直接从未剪辑视频中训练动作识别与检测模型。通过联合优化分类模块与选择模块(采用硬注意力或软注意力机制),UntrimmedNet在THUMOS14和ActivityNet数据集上实现了最先进性能,尽管缺乏时序标注,仍优于强监督方法。
Current action recognition methods heavily rely on trimmed videos for model training. However, it is expensive and time-consuming to acquire a large-scale trimmed video dataset. This paper presents a new weakly supervised architecture, called UntrimmedNet, which is able to directly learn action recognition models from untrimmed videos without the requirement of temporal annotations of action instances. Our UntrimmedNet couples two important components, the classification module and the selection module, to learn the action models and reason about the temporal duration of action instances, respectively. These two components are implemented with feed-forward networks, and UntrimmedNet is therefore an end-to-end trainable architecture. We exploit the learned models for action recognition (WSR) and detection (WSD) on the untrimmed video datasets of THUMOS14 and ActivityNet. Although our UntrimmedNet only employs weak supervision, our method achieves performance superior or comparable to that of those strongly supervised approaches on these two datasets.
研究动机与目标
- 解决为动作识别获取带精确时序标注的剪辑视频数据集所带来的高成本与不切实际的问题。
- 开发一种弱监督学习框架,仅使用视频级别标签,直接从未剪辑视频中训练动作模型。
- 在无需真实边界框的情况下,联合学习用于动作分类的视觉表征与动作实例的时序定位。
- 证明弱监督可优于或匹配强监督在动作识别与检测任务中的表现。
提出的方法
- UntrimmedNet使用均匀采样或基于片段的采样方法,从未剪辑视频中生成片段提议。
- 分类模块使用标准Softmax分类器,为每个片段提议预测动作得分。
- 选择模块采用硬选择(top-k池化)或软选择(学习到的注意力权重)来识别最具判别性的片段。
- 通过加权求和的方式融合分类模块与选择模块的输出,生成视频级别的预测结果。
- 整个网络通过反向传播进行端到端训练,以视频级别标签作为监督信号。
- 该方法在THUMOS14和ActivityNet上使用弱监督进行评估,检测通过注意力权重与得分的阈值化实现。
实验结果
研究问题
- RQ1是否可以在不依赖任何时序标注的情况下,有效训练未剪辑视频中的动作识别与检测?
- RQ2在弱监督设置下,联合优化分类与选择模块是否能提升性能?
- RQ3弱监督模型是否能在未剪辑视频基准上超越或匹配强监督模型的性能?
- RQ4当仅提供视频级别标签时,注意力机制在未剪辑视频中对动作实例的定位能力如何?
主要发现
- 在THUMOS14数据集上,UntrimmedNet的平均平均精度比之前方法高出3.7%,尽管仅使用弱监督。
- 在ActivityNet数据集上,UntrimmedNet在弱监督设置下比之前最先进方法的mAP提升了2.5%。
- UntrimmedNet的软选择变体在THUMOS14数据集上,IoU阈值为0.1时达到44.4%的mAP,与强监督方法相当。
- 注意力权重的可视化显示,该模型能成功突出与动作相关的帧,同时抑制静态或无关的背景帧。
- 消融实验确认,分类与选择模块的联合学习对性能至关重要,因为该模型的表现优于分别优化各组件的基线方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。