[论文解读] Self-supervised learning of a facial attribute embedding from video
FAb-Net 通过对视频帧进行自监督的帧变换,学习面部属性的低维嵌入,使得姿态、关键点和表情任务可以用线性分类器完成,且常与监督方法相媲美。
We propose a self-supervised framework for learning facial attributes by simply watching videos of a human face speaking, laughing, and moving over time. To perform this task, we introduce a network, Facial Attributes-Net (FAb-Net), that is trained to embed multiple frames from the same video face-track into a common low-dimensional space. With this approach, we make three contributions: first, we show that the network can leverage information from multiple source frames by predicting confidence/attention masks for each frame; second, we demonstrate that using a curriculum learning regime improves the learned embedding; finally, we demonstrate that the network learns a meaningful face embedding that encodes information about head pose, facial landmarks and facial expression, i.e. facial attributes, without having been supervised with any labelled data. We are comparable or superior to state-of-the-art self-supervised methods on these tasks and approach the performance of supervised methods.
研究动机与目标
- 在没有标注数据的情况下,激励学习面部属性表示。
- 利用同一身份在不同视角/表情的视频,构建一个共享的嵌入。
- 展示在该嵌入上放置线性层即可预测关键点、姿态和表情。
- 展示多帧源和课程学习对提升嵌入的好处。
- 阐明基于面部属性的图像检索应用。
提出的方法
- 训练 FAb-Net,将源帧和目标帧嵌入到 256 维向量。
- 将源嵌入和目标嵌入拼接,通过解码器预测一个将源映射到目标的流场。
- 在生成帧与目标帧之间使用 L1 损失,强制嵌入捕捉姿态/表情。
- 在多源设置中,预测每帧的置信热力图,并在重建目标时对其贡献进行加权。
- 引入课程学习,通过按训练损失百分位排序选择批次,逐步提高难度。
- 通过在外部数据集上训练用于关键点回归、头部姿态回归和表情分类的线性层来评估嵌入。
实验结果
研究问题
- RQ1是否可以通过视频学习的自监督嵌入在不需要标签的情况下捕捉姿态、关键点和表情等面部属性?
- RQ2多源帧和课程学习是否能提升面部属性嵌入的质量?
- RQ3所学习的嵌入是否可转移到下游任务,在外部数据集上通过简单的线性探针实现?
- RQ4该嵌入是否支持超出训练数据的任务,例如基于面部属性的图像检索?
主要发现
- 所学习的嵌入在无监督情况下编码了面部属性,包括头部姿态、关键点和表情。
- 增加多帧源和置信度图提升了嵌入质量。
- 课程学习相对于标准训练带来性能提升。嵌入在某些设置接近监督方法在姿态和关键点任务上的表现,对于表情识别也具有竞争力。
- 在外部数据集上的线性探针在关键点、姿态和表情方面取得了有竞争力的结果,尽管域从 VoxCeleb+ 转移到 CelebA/AffectNet/EmotioNet。
- 该嵌入能够通过余弦相似度进行跨身份的图像检索,检索出具有相似姿态/表情的图像,而非相同身份或装饰。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。