Skip to main content
QUICK REVIEW

[论文解读] Walk and Learn: Facial Attribute Representation Learning from Egocentric Video and Contextual Data

Jing Wang, Yu Cheng|arXiv (Cornell University)|Apr 21, 2016
Face recognition and analysis参考文献 51被引用 21
一句话总结

本文提出了一种自监督深度学习框架,通过从第一人称视频和上下文数据(位置与天气)中学习丰富的面部属性表征,消除了对昂贵的人工标注的依赖。通过利用来自多样化城市环境中的500万个身份追踪人脸对,该方法联合优化身份一致性与上下文预测,实现了在无需预训练人工标注身份数据情况下的面部属性分类最先进性能。

ABSTRACT

The way people look in terms of facial attributes (ethnicity, hair color, facial hair, etc.) and the clothes or accessories they wear (sunglasses, hat, hoodies, etc.) is highly dependent on geo-location and weather condition, respectively. This work explores, for the first time, the use of this contextual information, as people with wearable cameras walk across different neighborhoods of a city, in order to learn a rich feature representation for facial attribute classification, without the costly manual annotation required by previous methods. By tracking the faces of casual walkers on more than 40 hours of egocentric video, we are able to cover tens of thousands of different identities and automatically extract nearly 5 million pairs of images connected by or from different face tracks, along with their weather and location context, under pose and lighting variations. These image pairs are then fed into a deep network that preserves similarity of images connected by the same track, in order to capture identity-related attribute features, and optimizes for location and weather prediction to capture additional facial attribute features. Finally, the network is fine-tuned with manually annotated samples. We perform an extensive experimental analysis on wearable data and two standard benchmark datasets based on web images (LFWA and CelebA). Our method outperforms by a large margin a network trained from scratch. Moreover, even without using manually annotated identity labels for pre-training as in previous methods, our approach achieves results that are better than the state of the art.

研究动机与目标

  • 通过利用来自上下文数据的弱监督,解决面部属性学习中人工标注成本过高的问题。
  • 通过环境上下文提升面部属性表征学习,超越与身份相关的特征(如眼镜、帽子)的范围。
  • 利用可穿戴相机捕捉的真实世界城市环境中多样的面部外观。
  • 开发一种预训练策略,提升下游面部属性分类性能,且不依赖身份标注数据集。
  • 证明上下文监督(位置与天气)可产生优于仅使用身份预训练的特征表征。

提出的方法

  • 该方法处理超过40小时的第一人称视频,通过面部关键点检测追踪普通行人的面部。
  • 基于追踪一致性生成人脸图像对:同轨迹对为正样本,不同轨迹对为负样本。
  • 采用具有对比损失的孪生深度网络,通过最小化同轨迹对之间的距离,保留与身份相关的特征。
  • 相同的网络联合训练以预测地理位置和天气状况,将上下文特征注入嵌入空间。
  • 使用少量人工标注的面部属性标签对所得特征表征进行微调。
  • 该框架采用联合多任务学习目标,结合身份一致性与上下文预测,学习解耦且鲁棒的特征。

实验结果

研究问题

  • RQ1地理位置和天气等上下文信息能否作为弱监督信号,实现在无人工标注情况下的面部属性表征学习?
  • RQ2联合学习身份一致性与上下文预测是否能超越仅使用身份预训练的性能,提升面部属性分类效果?
  • RQ3在无身份标签的情况下,基于第一人称视频数据训练的模型能否在标准基准(如LFWA和CelebA)上实现良好泛化?
  • RQ4所学习的特征能否有效捕捉哪些类型的面部属性(与身份相关 vs. 与身份无关)?
  • RQ5与在大规模身份标注数据集上预训练的模型相比,所学习的特征表现如何?

主要发现

  • 所提方法在面部属性分类任务上优于从零开始训练的网络,证明了自监督预训练的有效性。
  • 即使未使用人工标注的身份标签进行预训练,该方法在标准基准上的性能仍优于当前最先进水平。
  • 通过位置-based监督,模型学习到了关于种族的强先验知识,如通过聚焦于种族特异性面部特征的神经元激活可视化所示。
  • 基于天气的预训练捕捉到了与身份无关的属性(如太阳镜、帽子),可视化神经元突出了局部面部组件。
  • 身份与上下文的联合优化产生了更鲁棒的特征,这在姿态、光照和表情变化下的性能表现中得到验证。
  • 使用极少人工标注进行微调即可获得优异性能,证实了自监督特征学习的质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。