Skip to main content
QUICK REVIEW

[论文解读] Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs

Yury Kartynnik, Artsiom Ablavatski|arXiv (Cornell University)|Jul 15, 2019
Face recognition and analysis参考文献 6被引用 58
一句话总结

论文提出一个神经网络模型,从单帧单目视频预测一个密集的468点3D人脸网格,优化以在移动GPU上实现实时推理,包含若干轻量化变体。

ABSTRACT

We present an end-to-end neural network-based model for inferring an approximate 3D mesh representation of a human face from single camera input for AR applications. The relatively dense mesh model of 468 vertices is well-suited for face-based AR effects. The proposed model demonstrates super-realtime inference speed on mobile GPUs (100-1000+ FPS, depending on the device and model variant) and a high prediction quality that is comparable to the variance in manual annotations of the same image.

研究动机与目标

  • 激发并实现从单个RGB帧为AR捕捉实时的3D面部表面几何。
  • 提出适用于表达性AR效果的468点人脸网格拓扑结构。
  • 在移动GPU上实现实时推理,精度达到与互评者变异性相当。
  • 提供从人脸检测与对齐到网格预测和时间稳定化的端到端流程。

提出的方法

  • 使用残差神经网络从裁剪后的256×256(全)或128×128(更轻量)输入回归468个网格顶点的3D坐标。
  • 在图像平面产生x,y坐标,z为相对于参考平面的深度,并进行缩放以保持纵横比。
  • 整合一个轻量级的面部检测器和面部对齐步骤以裁剪并对齐输入帧。
  • 对每个landmark坐标应用一维时间滤波(受1 Euro filter启发),以降低视频序列中的抖动。
  • 使用合成的3DMM渲染以及2D语义landmarks进行引导训练,随后在真实场景数据上进行迭代微调。

实验结果

研究问题

  • RQ1是否能够在移动硬件上仅通过单目视频推断出高保真度的密集3D人脸网格(468点)?
  • RQ2在具有不同GPU和CPU的设备上,轻量级架构是否足以实现实时推理?
  • RQ3所提出的时序滤波对视频中landmark轨迹的视觉稳定性有何影响?
  • RQ4输入分辨率对移动场景的准确性与速度有何影响?
  • RQ5在不具备完整度量精度的情况下,合成+细化训练是否能实现对AR应用而言在视觉上可信的深度?

主要发现

  • 完整模型在2D坐标上实现3.96%视距(IOD)平均绝对误差(MAD);深度通过合成监督学习。
  • 面向GPU的完整模型在iPhone XS上每帧2.5 ms,在Pixel 3上为7.4 ms,输入为256x256。
  • 128×128的轻量模型在iPhone XS上实现1 ms,在Pixel 3上实现3.4 ms,IOD MAD为5.15%。
  • 最轻量模型在128×128下实现0.7 ms(iPhone XS)和2.6 ms(Pixel 3),IOD MAD为5.29%。
  • 时序滤波降低逐帧抖动同时保持视频序列的响应性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。