[论文解读] Connectionist Temporal Modeling for Weakly Supervised Action Labeling
本文提出扩展连接时序分类(ECTC),一种用于视频动作标注的弱监督框架,通过利用帧间视觉相似性,在无需时间注释的情况下强制实现视频帧与动作标签之间的一致对齐。通过在CTC基础上引入视觉一致性约束,并支持稀疏帧级注释的半监督学习,ECTC在仅使用不到1%的标注帧的情况下实现了最先进性能,在某些设置下超越了完全监督基线模型。
We propose a weakly-supervised framework for action labeling in video, where only the order of occurring actions is required during training time. The key challenge is that the per-frame alignments between the input (video) and label (action) sequences are unknown during training. We address this by introducing the Extended Connectionist Temporal Classification (ECTC) framework to efficiently evaluate all possible alignments via dynamic programming and explicitly enforce their consistency with frame-to-frame visual similarities. This protects the model from distractions of visually inconsistent or degenerated alignments without the need of temporal supervision. We further extend our framework to the semi-supervised case when a few frames are sparsely annotated in a video. With less than 1% of labeled frames per video, our method is able to outperform existing semi-supervised approaches and achieve comparable performance to that of fully supervised approaches.
研究动机与目标
- 解决在训练过程中仅提供动作顺序而无逐帧时间注释的弱监督视频动作标注挑战。
- 降低在可能对齐的庞大搜索空间中出现退化或视觉不一致的帧-标签对齐的风险。
- 通过将视觉相似性融入对齐评分过程,改进视频动作定位中的时间建模。
- 将框架扩展至稀疏帧级注释的半监督学习,显著缩小对齐搜索空间。
- 在最小化监督的前提下,实现与完全监督模型相当的性能。
提出的方法
- 通过动态规划高效评估所有可能的帧-标签对齐,将连接时序分类(CTC)适配至视频动作标注。
- 提出扩展CTC(ECTC),通过显式引入帧间视觉相似性来强制对齐一致性,以过滤掉视觉上不合理的对齐。
- 修改前向-后向算法以整合视觉相似性得分,基于连续帧之间的视觉一致性对对齐进行加权。
- 通过将已知的帧-标签对齐建模为约束条件,扩展ECTC以处理帧级半监督学习,从而修剪对齐空间。
- 采用统一的优化框架,联合建模弱监督(动作顺序)和稀疏帧级监督。
- 利用预训练模型的深度特征作为时间建模和对齐评分的输入表示。
实验结果
研究问题
- RQ1仅基于动作顺序而无任何帧级时间注释,时间建模框架能否有效学习动作定位?
- RQ2如何利用连续帧之间的视觉一致性来改善弱监督动作标注中的对齐质量?
- RQ3稀疏帧级注释在多大程度上能提升对齐准确率并缩小弱监督视频理解中的搜索空间?
- RQ4当标注帧少于1%时,弱监督模型能否超越完全监督基线?
- RQ5在对齐评分过程中引入视觉相似性,如何提升对退化或不一致对齐的鲁棒性?
主要发现
- ECTC在动作检测和对齐任务上优于现有弱监督基线,即使仅使用动作顺序监督进行训练。
- 在每段视频中使用少于1%的标注帧时,ECTC的半监督扩展版本实现了与完全监督最先进方法相当的性能。
- ECTC中引入视觉相似性显著提升了对齐质量,降低了视觉不一致或退化对齐的影响。
- 在Hollywood2数据集上,ECTC在弱监督动作检测中的平均平均精度(mAP)高于OCDC基线,证明了时间建模的优势。
- 在测试集上,模型实现了出色的对齐性能,ECTC变体在Jaccard指数上优于均匀基线和OCDC。
- 定性结果表明,ECTC能够准确地定位各种持续时间的动作,即使在复杂且较长的视频中亦然。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。