Skip to main content
QUICK REVIEW

[论文解读] Deep Learning Multi-View Representation for Face Recognition

Zhenyao Zhu, Ping Luo|arXiv (Cornell University)|Jun 26, 2014
Face recognition and analysis参考文献 20被引用 26
一句话总结

该论文提出多视角感知器(MVP),一种深度生成网络,通过使用确定性和随机隐藏神经元,将人脸图像中的身份与视角表征解耦。通过将视角建模为连续变量,MVP 能够从单个 2D 输入生成完整范围的多视角图像,实现了最先进的身份识别性能,并支持对未观测视角的插值。

ABSTRACT

Various factors, such as identities, views (poses), and illuminations, are coupled in face images. Disentangling the identity and view representations is a major challenge in face recognition. Existing face recognition systems either use handcrafted features or learn features discriminatively to improve recognition accuracy. This is different from the behavior of human brain. Intriguingly, even without accessing 3D data, human not only can recognize face identity, but can also imagine face images of a person under different viewpoints given a single 2D image, making face perception in the brain robust to view changes. In this sense, human brain has learned and encoded 3D face models from 2D images. To take into account this instinct, this paper proposes a novel deep neural net, named multi-view perceptron (MVP), which can untangle the identity and view features, and infer a full spectrum of multi-view images in the meanwhile, given a single 2D face image. The identity features of MVP achieve superior performance on the MultiPIE dataset. MVP is also capable to interpolate and predict images under viewpoints that are unobserved in the training data.

研究动机与目标

  • 解决 2D 人脸图像中身份与视角表征固有耦合所带来的挑战。
  • 通过从单张输入图像生成未观测视角下的连续人脸图像谱,模拟人类的多视角感知能力。
  • 通过解耦表征学习,学习更具判别力的身份特征,从而提升人脸识别准确率。
  • 实现对未在训练中观测到的视角下人脸图像的插值与预测,模拟人类的推理能力。

提出的方法

  • MVP 使用两种隐藏神经元:用于身份表征的确定性神经元和用于视角表征的随机神经元。
  • 随机神经元从均匀先验中采样,使得单个输入可生成多样化的视角输出。
  • 正则化项确保相似视角下的图像具有相似的视角表征,从而实现有序的多视角生成。
  • 通过反向传播训练网络,最大化数据对数似然的变分下界。
  • 学习过程将概率模型中的 EM 更新转换为标准的前向与反向传播步骤。
  • 通过将确定性和随机滤波器应用于特征图,可将该模型扩展至卷积架构。

实验结果

研究问题

  • RQ1深度神经网络是否能在无需 3D 监督的情况下,从 2D 人脸图像中解耦身份与视角表征?
  • RQ2该网络是否能从单张输入图像生成连续范围的多视角人脸图像?
  • RQ3该模型是否能对训练中未观测到的视角进行插值与预测?
  • RQ4解耦的身份表征是否能带来更好的人脸识别性能?
  • RQ5该模型是否能通过从单张 2D 图像生成合理的新视角,模拟人类的推理能力?

主要发现

  • MVP 学习到的身份特征在 MultiPIE 数据集上的表现优于现有最先进方法。
  • 当在 0°、30° 和 60° 图像上进行训练时,MVP 能够成功重建未观测视角(如 15° 和 45°)下的图像。
  • 该模型展示了连续的多视角生成能力,输出在不同视角间呈现出平滑过渡。
  • 同一人不同视角下的身份特征保持一致,而同一视角下不同身份的视角特征也保持一致。
  • 即使输入来自未观测视角,模型仍能生成完整的视角谱,表明其具备类推理的泛化能力。
  • 使用随机神经元可使单个输入生成多样化且视角特定的输出,而确定性神经元则保持身份不变性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。