QUICK REVIEW

[论文解读] Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs

Yury Kartynnik, Artsiom Ablavatski|arXiv (Cornell University)|Jul 15, 2019

Face recognition and analysis参考文献 6被引用 58

一句话总结

论文提出一个神经网络模型，从单帧单目视频预测一个密集的468点3D人脸网格，优化以在移动GPU上实现实时推理，包含若干轻量化变体。

ABSTRACT

We present an end-to-end neural network-based model for inferring an approximate 3D mesh representation of a human face from single camera input for AR applications. The relatively dense mesh model of 468 vertices is well-suited for face-based AR effects. The proposed model demonstrates super-realtime inference speed on mobile GPUs (100-1000+ FPS, depending on the device and model variant) and a high prediction quality that is comparable to the variance in manual annotations of the same image.

研究动机与目标

激发并实现从单个RGB帧为AR捕捉实时的3D面部表面几何。
提出适用于表达性AR效果的468点人脸网格拓扑结构。
在移动GPU上实现实时推理，精度达到与互评者变异性相当。
提供从人脸检测与对齐到网格预测和时间稳定化的端到端流程。

提出的方法

使用残差神经网络从裁剪后的256×256（全）或128×128（更轻量）输入回归468个网格顶点的3D坐标。
在图像平面产生x,y坐标，z为相对于参考平面的深度，并进行缩放以保持纵横比。
整合一个轻量级的面部检测器和面部对齐步骤以裁剪并对齐输入帧。
对每个landmark坐标应用一维时间滤波（受1 Euro filter启发），以降低视频序列中的抖动。
使用合成的3DMM渲染以及2D语义landmarks进行引导训练，随后在真实场景数据上进行迭代微调。

实验结果

研究问题

RQ1是否能够在移动硬件上仅通过单目视频推断出高保真度的密集3D人脸网格（468点）？
RQ2在具有不同GPU和CPU的设备上，轻量级架构是否足以实现实时推理？
RQ3所提出的时序滤波对视频中landmark轨迹的视觉稳定性有何影响？
RQ4输入分辨率对移动场景的准确性与速度有何影响？
RQ5在不具备完整度量精度的情况下，合成+细化训练是否能实现对AR应用而言在视觉上可信的深度？

主要发现

完整模型在2D坐标上实现3.96%视距（IOD）平均绝对误差（MAD）；深度通过合成监督学习。
面向GPU的完整模型在iPhone XS上每帧2.5 ms，在Pixel 3上为7.4 ms，输入为256x256。
128×128的轻量模型在iPhone XS上实现1 ms，在Pixel 3上实现3.4 ms，IOD MAD为5.15%。
最轻量模型在128×128下实现0.7 ms（iPhone XS）和2.6 ms（Pixel 3），IOD MAD为5.29%。
时序滤波降低逐帧抖动同时保持视频序列的响应性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。