Skip to main content
QUICK REVIEW

[论文解读] Deep Joint Face Hallucination and Recognition

Junyu Wu, Shengyong Ding|arXiv (Cornell University)|Nov 24, 2016
Facial Nerve Paralysis Treatment and Research参考文献 25被引用 33
一句话总结

本文提出一种联合端到端深度卷积网络,同时执行人脸幻化与识别,通过级联结构联合训练两项任务。通过在训练过程中同时优化幻化与识别损失,该模型在4倍下采样的LFW上达到97.95%的准确率,在YTF上达到90.65%,优于独立训练的识别模型,并表明联合学习可提升识别性能,优于单独训练或仅进行幻化微调的方案。

ABSTRACT

Deep models have achieved impressive performance for face hallucination tasks. However, we observe that directly feeding the hallucinated facial images into recog- nition models can even degrade the recognition performance despite the much better visualization quality. In this paper, we address this problem by jointly learning a deep model for two tasks, i.e. face hallucination and recognition. In particular, we design an end-to-end deep convolution network with hallucination sub-network cascaded by recognition sub-network. The recognition sub- network are responsible for producing discriminative feature representations using the hallucinated images as inputs generated by hallucination sub-network. During training, we feed LR facial images into the network and optimize the parameters by minimizing two loss items, i.e. 1) face hallucination loss measured by the pixel wise difference between the ground truth HR images and network-generated images; and 2) verification loss which is measured by the classification error and intra-class distance. We extensively evaluate our method on LFW and YTF datasets. The experimental results show that our method can achieve recognition accuracy 97.95% on 4x down-sampled LFW testing set, outperforming the accuracy 96.35% of conventional face recognition model. And on the more challenging YTF dataset, we achieve recognition accuracy 90.65%, a margin over the recognition accuracy 89.45% obtained by conventional face recognition model on the 4x down-sampled version.

研究动机与目标

  • 解决幻化后的低分辨率(LR)人脸图像尽管视觉质量提升,但识别性能反而下降的问题。
  • 在单一端到端深度网络中联合优化人脸幻化与识别,实现在训练过程中相互反馈。
  • 通过利用幻化输出作为判别性表征学习的中间特征,提升低分辨率人脸图像的识别准确率。
  • 证明联合训练相比独立训练或使用预训练超分网络作为特征提取器,能获得更优的幻化与识别性能。

提出的方法

  • 设计一个端到端的CNN,其中幻化子网络级联识别子网络,低分辨率输入首先被增强,然后送入识别分支。
  • 采用双流损失函数:(1) 生成的高分辨率图像与真实高分辨率图像之间的像素级L2损失,用于幻化任务;(2) 基于分类误差与特征空间内类内距离的联合识别损失。
  • 采用中心损失公式计算识别损失,以最小化特征空间中的类内差异并最大化类间分离。
  • 使用LR-CASIA图像作为输入,HR-CASIA图像作为目标,配合身份标签进行监督,端到端训练整个网络。
  • 采用幻化损失与识别损失的加权和,其中超参数α=0.01,β₁=1,β₂=0.008,以平衡任务目标。
  • 使用单张TITAN X GPU训练28,000个周期,学习率在16,000和24,000次迭代后分别衰减。

实验结果

研究问题

  • RQ1与分别训练幻化与识别网络相比,联合训练人脸幻化与识别网络是否能提升低分辨率人脸图像的识别准确率?
  • RQ2当将深度网络生成的幻化图像作为输入提供给识别模型时,是否能提升识别性能?
  • RQ3端到端的联合优化是否能带来比使用预训练超分网络作为特征提取器更优的幻化质量与识别准确率?
  • RQ4在LFW与YTF数据集的下采样版本上测试时,该联合模型与传统人脸识别模型相比表现如何?

主要发现

  • 该联合模型在4倍下采样的LFW数据集上达到97.95%的识别准确率,优于独立识别模型的96.35%。
  • 在更具挑战性的YTF数据集上,联合模型达到90.65%的准确率,较传统模型在相同低分辨率测试集上的89.45%提升了1.2%。
  • 该模型优于使用幻化图像训练识别网络的设置(LFW上为97.61%),证实联合训练能带来更好的泛化能力。
  • 与独立的SRCNN和SRNET相比,该联合模型在CASIA-WebFace数据集上产生略优的幻化结果,PSNR提升0.01 dB。
  • 在LR-YTF上的识别性能从幻化训练的88.20%提升至联合训练的90.95%,表明联合优化增强了特征的可分性。
  • 消融实验验证了:使用预训练超分网络生成的幻化图像会降低识别性能(LR-LFW上为96.30% vs. 96.35%),进一步证实了联合学习的必要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。