Skip to main content
QUICK REVIEW

[论文解读] Face Transformer for Recognition

Yaoyao Zhong, Weihong Deng|arXiv (Cornell University)|Mar 27, 2021
Face recognition and analysis参考文献 31被引用 45
一句话总结

论文探索使用 Transformer 模型进行人脸识别,提出重叠补丁 token 以捕捉补丁间信息,并显示在 MS-Celeb-1M 上与 CNNs 竞争性结果。

ABSTRACT

Recently there has been a growing interest in Transformer not only in NLP but also in computer vision. We wonder if transformer can be used in face recognition and whether it is better than CNNs. Therefore, we investigate the performance of Transformer models in face recognition. Considering the original Transformer may neglect the inter-patch information, we modify the patch generation process and make the tokens with sliding patches which overlaps with each others. The models are trained on CASIA-WebFace and MS-Celeb-1M databases, and evaluated on several mainstream benchmarks, including LFW, SLLFW, CALFW, CPLFW, TALFW, CFP-FP, AGEDB and IJB-C databases. We demonstrate that Face Transformer models trained on a large-scale database, MS-Celeb-1M, achieve comparable performance as CNN with similar number of parameters and MACs. To facilitate further researches, Face Transformer models and codes are available at https://github.com/zhongyy/Face-Transformer.

研究动机与目标

  • 研究将 Transformer 架构应用于人脸识别的可行性。
  • 评估在参数数量和 MACs 相近的条件下,Transformer 的性能是否等同于或优于 CNNs。
  • 分析补丁重叠如何影响补丁间信息的捕获。
  • 评估在标准基准测试上,针对大规模人脸数据集训练的 Transformer 模型。

提出的方法

  • 通过生成重叠图像块作为 token,改造 ViT 风格的 Transformer。
  • 使用可训练的线性投影将块映射到模型维度 D。
  • 连接一个类别 token,并应用带 LayerNorm 和残差连接的标准 Transformer 编码器。
  • 使用 CosFace 损失进行训练,以提升判别嵌入。
  • 在不同训练数据集下,与 ResNet-100 和其他 Vision Transformers(ViT、T2T-ViT)进行比较。
  • 将输出嵌入使用余弦边界的 softmax 损失进行验证。

实验结果

研究问题

  • RQ1在大规模数据集上训练时,Transformer 模型能否在面部识别任务中有效胜过 CNN?
  • RQ2重叠补丁 token 生成是否提升补丁间信息的捕获与识别性能?
  • RQ3在 MS-Celeb-1M 上训练的 Face Transformer 相较于具有可比复杂性的 CNN 基模型,在主流基准测试中的表现如何?

主要发现

  • 在 MS-Celeb-1M 上训练的 Face Transformer 模型在参数数量和 MACs 相近的 CNNs 中取得了具有竞争力的准确性。
  • 重叠补丁 token(滑动补丁)相较于非重叠的 ViT 变体提升了性能。
  • 在大规模数据集训练后,Transformer 模型在 TALFW 等基准测试中表现出色。
  • 当遮挡增加时,Face Transformer 的遮挡鲁棒性尚不及 ResNet-100。
  • 注意力分析表明模型关注面部区域,验证了该架构设计。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。