[论文解读] Using Self-Supervised Co-Training to Improve Facial Representation.
本文提出混合学习(Hybrid Learning, HL),一种多任务框架,通过将自监督协同训练与监督学习相结合,用于面部表征学习。通过在监督的面部表情识别任务与自监督预训练任务(如拼图游戏和图像修复)上联合训练,HL 在不使用额外数据的情况下提升了 AffectNet 上的性能,在头部姿态估计任务上误差最高降低 9%,并在低数据量和强数据增强设置下缓解了过拟合问题。
In this paper, at first, the impact of ImageNet pre-training on Facial Expression Recognition (FER) was tested under different augmentation levels. It could be seen from the results that training from scratch could reach better performance compared to ImageNet fine-tuning at stronger augmentation levels. After that, a framework was proposed for standard Supervised Learning (SL), called Hybrid Learning (HL) which used Self-Supervised co-training with SL in Multi-Task Learning (MTL) manner. Leveraging Self-Supervised Learning (SSL) could gain additional information from input data like spatial information from faces which helped the main SL task. It is been investigated how this method could be used for FER problems with self-supervised pre-tasks such as Jigsaw puzzling and in-painting. The supervised head (SH) was helped by these two methods to lower the error rate under different augmentations and low data regime in the same training settings. The state-of-the-art was reached on AffectNet via two completely different HL methods, without utilizing additional datasets. Moreover, HL's effect was shown on two different facial-related problem, head poses estimation and gender recognition, which concluded to reduce in error rate by up to 9% and 1% respectively. Also, we saw that the HL methods prevented the model from reaching overfitting.
研究动机与目标
- 探究自监督预训练是否能在低数据量和高数据增强设置下提升面部表征学习性能。
- 开发一种将自监督协同训练与监督学习相结合的多任务学习框架,用于面部表情识别。
- 评估自监督预训练任务(拼图游戏和图像修复)在提升泛化能力和减少过拟合方面的有效性。
- 证明所提出方法在面部分析任务(除表情识别外)中的可迁移性。
- 在不使用外部数据集的情况下实现在 AffectNet 上的最先进性能。
提出的方法
- 所提出的混合学习(HL)框架在多任务学习设置中,将监督学习与自监督协同训练相结合。
- 采用两种自监督预训练任务——拼图游戏和图像修复,以从面部图像中提取空间和结构信息。
- 在训练过程中,模型联合优化用于面部表情识别的监督头以及用于预训练任务的自监督头。
- 该框架采用共享特征提取器进行端到端训练,使自监督任务的知识能够蒸馏到主监督任务中。
- 在不同数据增强水平和数据设置下评估该方法,以评估其鲁棒性和泛化能力。
- 将该方法扩展至其他面部分析任务,包括头部姿态估计和性别识别,以验证其可迁移性。
实验结果
研究问题
- RQ1在强数据增强和低数据量设置下,自监督协同训练是否能提升面部表情识别的性能?
- RQ2诸如拼图游戏和图像修复等自监督预训练任务,是否能增强监督面部识别模型的表征能力?
- RQ3与标准监督训练或 ImageNet 微调相比,所提出的混合学习框架是否能更有效地减少过拟合?
- RQ4HL 框架在面部表情识别以外的其他面部分析任务中,其泛化能力有多强?
- RQ5能否在不使用额外数据集的情况下实现在 AffectNet 上的最先进性能?
主要发现
- 在强数据增强设置下,从零开始训练的性能优于 ImageNet 微调,表明在高数据增强环境下,预训练并不总是能提升面部表情识别(FER)性能。
- 与基线监督学习相比,HL 框架在头部姿态估计任务上的误差最高降低了 9%,在性别识别任务上降低了 1%。
- HL 框架在不依赖外部数据集的情况下,实现在 AffectNet 上的最先进性能。
- 自监督预训练任务提供了互补信息,尤其是空间结构信息,从而改善了主监督任务的泛化能力。
- 该方法能有效防止过拟合,尤其是在低数据量和高数据增强条件下。
- 在不同数据增强水平下,性能提升保持一致,证明了所提出的协同训练策略具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。