[论文解读] Domain-Specific Priors and Meta Learning for Few-Shot First-Person Action Recognition
本文提出了一种基于领域特定视觉线索(如手部抓握、物体交互、运动及轨迹)与注意力增强元学习框架(A-MAML)的 few-shot 第一人称动作识别方法。通过结合独立训练的视觉线索与元学习,该方法在 EPIC 和 EGTEA 数据集上实现了最先进性能,在跨类别与跨数据集的 few-shot 迁移设置中显著优于基线方法。
The lack of large-scale real datasets with annotations makes transfer learning a necessity for video activity understanding. We aim to develop an effective method for few-shot transfer learning for first-person action classification. We leverage independently trained local visual cues to learn representations that can be transferred from a source domain, which provides primitive action labels, to a different target domain using only a handful of examples. Visual cues we employ include object-object interactions, hand grasps and motion within regions that are a function of hand locations. We employ a framework based on meta-learning to extract the distinctive and domain invariant components of the deployed visual cues. This enables transfer of action classification models across public datasets captured with diverse scene and action configurations. We present comparative results of our transfer learning methodology and report superior results over state-of-the-art action classification approaches for both inter-class and inter-dataset transfer.
研究动机与目标
- 解决由于缺乏大规模全标注视频数据集而导致的 few-shot 第一人称动作识别挑战。
- 通过在类别与数据集之间实现迁移学习,缓解第一人称动作数据集中的领域偏移与数据不平衡问题。
- 开发一种可扩展的、标注轻量化的框架,通过以手部为中心的视觉线索将前景动作与背景杂波解耦。
- 通过结合元学习与任务特定视觉先验,提升动作识别模型的泛化能力,实现更好的 few-shot 适应性能。
提出的方法
- 利用独立训练的视觉线索模型(手部检测、抓握分类、光流、物体交互)作为领域特定先验,从第一人称视频中提取判别性特征。
- 使用循环神经网络(RNN)编码视觉线索的时间序列,并引入注意力机制以聚焦于相关时空模式。
- 应用注意力增强的模型无关元学习(A-MAML)框架,使 RNN 能够在仅用少量样本的情况下快速适应新类别,实现在推理阶段的快速适应。
- 在多样化图像数据集(如 COCO、ImageNet)上训练视觉线索模型,并将其直接迁移至视频动作识别任务,无需在视频数据上重新训练。
- 通过聚焦于以手部为中心的线索,将前景动作表征与背景外观解耦,提升对场景变化的鲁棒性。
- 在 few-shot 分类任务的 episode 上进行元训练,每个 episode 包含仅含少量样本的支撑集与查询集。
实验结果
研究问题
- RQ1领域特定视觉线索(如抓握、运动、物体交互)能否作为有效先验,提升第一人称视频中 few-shot 动作识别的性能?
- RQ2与标准微调和 KNN 基线相比,注意力增强的元学习(A-MAML)在 few-shot 第一人称动作识别中的有效性如何?
- RQ3从仅图像数据集学习到的表征在仅需极少标注的情况下,能多大程度上迁移到视频动作识别任务?
- RQ4所提出方法在仅用少量样本的情况下,能否在跨类别(长尾动作)与跨数据集(如厨房到工厂)场景中实现良好泛化?
主要发现
- 所提出的 A-MAML 方法在 5-way 1-shot 的 EPIC 基准上达到 50.2% 的准确率,比表现最佳的基线方法(ProtoNet)高出 17.3 个百分点。
- 在 5-shot 5-class 任务中,A-MAML 在 EPIC 上达到 41.4% 的准确率,在 EGTEA 上达到 51.4%,优于所有基线方法,包括 ProtoGAN 和 TARN。
- 在 10-shot 识别任务中,A-MAML 在 EPIC 上达到 50.2% 的准确率,在 EGTEA 上达到 60.7%,表明即使在监督信息有限的情况下仍具备强大泛化能力。
- 消融实验证明,使用全部视觉线索(手部、运动、抓握、物体交互)在 1-shot 情况下可达到 33.5% 的准确率,而仅使用全局特征时为 30.3%,证明多线索融合具有显著价值。
- 在跨数据集迁移中,微调方法比 KNN 高出 15.5 个百分点(56.9% vs. 41.4%),表明当领域偏移较大时,模型微调比基于度量的推理更有效。
- A-MAML 中的注意力机制相比标准 MAML 提升了 2.5–4.5 个百分点,尤其在长尾与低 shot 场景中表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。