[论文解读] Why Can't I Dance in the Mall? Learning to Mitigate Scene Bias in Action Recognition
本文提出一个视频动作识别去偏框架,通过使用场景对抗损失和人类掩码熵损失来减轻场景偏见,从而提升在分类、定位和检测任务上的迁移能力。
Human activities often occur in specific scene contexts, e.g., playing basketball on a basketball court. Training a model using existing video datasets thus inevitably captures and leverages such bias (instead of using the actual discriminative cues). The learned representation may not generalize well to new action classes or different tasks. In this paper, we propose to mitigate scene bias for video representation learning. Specifically, we augment the standard cross-entropy loss for action classification with 1) an adversarial loss for scene types and 2) a human mask confusion loss for videos where the human actors are masked out. These two losses encourage learning representations that are unable to predict the scene types and the correct actions when there is no evidence. We validate the effectiveness of our method by transferring our pre-trained model to three different tasks, including action classification, temporal localization, and spatio-temporal action detection. Our results show consistent improvement over the baseline model without debiasing.
研究动机与目标
- 激发并量化动作识别数据集中场景表征偏差。
- 提出一个去偏训练目标以学习场景不变特征。
- 通过迁移学习到多种动作理解任务实现更好的泛化。
- 在动作分类、时序定位和时空检测等任务上评估去偏方法。
提出的方法
- 在 Mini-Kinetics-200 上使用标准交叉熵损失对动作标签进行预训练 CNN。
- 添加场景对抗损失,通过在特征提取器之上放置一个场景分类器来学习场景不变特征。
- 通过对视频中的人进行掩码并最大化这些视频的预测动作熵来添加人类掩码混淆损失。
- 使用梯度反转层以对抗性方式训练场景对抗目标。
- 在训练期间使用现成的检测器对人进行掩码,并将它们的像素替换为帧均值。
- 在下游任务上对去偏表征进行微调,以实现动作分类、定位和检测。
实验结果
研究问题
- RQ1提出的去偏是否降低了视频数据集中的场景表征偏差?
- RQ2去偏表示是否在未见动作类别和超出预训练数据的任务上实现更好的迁移?
- RQ3这两种去偏损失对泛化的影响是什么?
- RQ4不同的伪场景标签如何影响去偏效果?
主要发现
- 去偏减少了场景相关特征,证据是在 Mini-Kinetics-200 验证集上场景分类器准确率从 29.7% 降至 2.9%。
- 去偏预训练在动作分类任务上对 HMDB-51、UCF-101 和 Diving48 的迁移性能有持续提升。
- 去偏也提升了 THUMOS-14 的时序动作定位和 JHMDB 的时空动作检测。
- 使用软伪场景标签在场景对抗训练中优于硬标签。
- LAdv 和 LEnt 都有贡献;同时使用两者可获得最好结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。