[论文解读] A flexible model for training action localization with varying levels of supervision
该论文提出了一种灵活的、基于判别性聚类的时空动作定位框架,能够统一处理从视频级别标签到逐帧完整标注的多种监督水平。通过将多种弱监督信号作为优化约束整合,该方法在UCF101-24和DALY数据集上实现了具有竞争力的性能,同时显著降低了标注成本,包括在完全监督设置下达到50.1%的mAP@0.5,以及通过混合弱监督与强监督获得显著性能提升。
Spatio-temporal action detection in videos is typically addressed in a fully-supervised setup with manual annotation of training videos required at every frame. Since such annotation is extremely tedious and prohibits scalability, there is a clear need to minimize the amount of manual supervision. In this work we propose a unifying framework that can handle and combine varying types of less-demanding weak supervision. Our model is based on discriminative clustering and integrates different types of supervision as constraints on the optimization. We investigate applications of such a model to training setups with alternative supervisory signals ranging from video-level class labels to the full per-frame annotation of action bounding boxes. Experiments on the challenging UCF101-24 and DALY datasets demonstrate competitive performance of our method at a fraction of supervision used by previous methods. The flexibility of our model enables joint learning from data with different levels of annotation. Experimental results demonstrate a significant gain by adding a few fully supervised examples to otherwise weakly labeled videos.
研究动机与目标
- 降低完全监督动作定位的高标注成本,后者需要为每个动作进行逐帧边界框标注。
- 解决当前完全监督方法因密集帧级标注过程繁琐且易出错而带来的可扩展性限制。
- 开发一个统一框架,能够处理并整合多种类型的弱监督,如视频级别标签、时间点标注和稀疏边界框。
- 证明混合不同监督水平(尤其是将少量完全标注视频与弱标签视频结合)可显著提升性能。
- 通过在完全监督设置下保持高性能,而非仅在弱监督设置下表现良好,实现所有监督水平之间的公平比较。
提出的方法
- 将动作定位建模为判别性聚类问题,其中模型估计一个标签分配矩阵 Y,用于将人体轨迹映射到动作类别。
- 定义一个统一的目标函数 h(Y),用于优化跨视频的轨迹聚类的一致性与判别性。
- 将各种监督类型(如视频级别标签、时间点、边界框)作为硬约束 Y_s 整合到优化过程中,而不改变目标函数。
- 采用分层约束结构,使更强的监督(如完整边界框)施加比更弱形式(如视频级别标签)更严格的约束,从而实现渐进式优化。
- 利用现成的人体检测器和跟踪器提取轨迹,减少对密集空间标注的依赖。
- 在I3D特征上训练线性分类器,未来工作可扩展至非线性模型,并在所有监督水平下验证性能。
实验结果
研究问题
- RQ1单一统一模型能否有效处理并整合多种弱监督类型用于动作定位?
- RQ2性能在从视频级别标签到逐帧完整标注的不同监督水平下如何变化?
- RQ3通过将弱监督(如视频级别标签或时间点)与少量完全标注视频混合,性能可提升多少?
- RQ4尽管该方法主要针对弱监督设计,其在完全监督设置下是否仍能保持具有竞争力的性能?
- RQ5实现强定位性能所需的最小标注工作量是多少?混合不同监督水平如何影响这一需求?
主要发现
- 在完全监督设置下,该方法在UCF101-24上达到50.1%的mAP@0.5,与近期最先进方法(如kalogeiton17iccv的49.2%)相比具有竞争力,且接近gu2017ava的59.9%。
- 仅使用20个完全标注视频(约占训练数据的5%)并为其余样本提供视频级别标签时,该方法在DALY数据集上达到18.2%的mAP@0.2,性能与使用40%完全标注数据的完全监督设置相当。
- 使用时间点监督(如每个动作仅需一次点击)可提升定位精度,相比仅使用视频级别标签,能有效减少动作边界检测的模糊性。
- 混合不同监督水平(如结合视频级别标签与少量完全标注视频)可带来显著性能提升,证明了混合标注策略的实际价值。
- 该方法优于先前的弱监督基线方法(如weinzaepfel2016towards),在使用其方法提取的轨迹时,UCF101-24上的视频级别mAP达到53.1%(基线为37.4%)。
- 该框架实现了所有监督水平之间的公平比较,表明同一模型架构在不同标注密度下均表现良好,验证了其灵活性与鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。