QUICK REVIEW

[论文解读] Self-supervised CNN for Unconstrained 3D Facial Performance Capture from an RGB-D Camera.

Yudong Guo, Juyong Zhang|arXiv (Cornell University)|Aug 16, 2018

Face recognition and analysis参考文献 76被引用 5

一句话总结

该论文提出一种自监督卷积神经网络，可在消费级RGB-D相机下实现受约束条件下（如遮挡、快速运动和极端表情）的实时3D人脸动作捕捉。通过联合学习参数化人脸模型与通过顶点位移和UV图表示的表面细节，并采用结合时间一致性与身份约束的新损失函数，该方法在智能手机上实现了鲁棒的实时性能。

ABSTRACT

We present a novel method for real-time 3D facial performance capture with consumer-level RGB-D sensors. Our capturing system is targeted at robust and stable 3D face capturing in the wild, in which the RGB-D facial data contain noise, imperfection and occlusion, and often exhibit high variability in motion, pose, expression and lighting conditions, thus posing great challenges. The technical contribution is a self-supervised deep learning framework, which is trained directly from raw RGB-D data. The key novelties include: (1) learning both the core tensor and the parameters for refining our parametric face model; (2) using vertex displacement and UV map for learning surface detail; (3) designing the loss function by incorporating temporal coherence and same identity constraints based on pairs of RGB-D images and utilizing sparse norms, in addition to the conventional terms for photo-consistency, feature similarity, regularization as well as geometry consistency; and (4) augmenting the training data set in new ways. The method is demonstrated in a live setup that runs in real-time on a smartphone and an RGB-D sensor. Extensive experiments show that our method is robust to severe occlusion, fast motion, large rotation, exaggerated facial expressions and diverse lighting.

研究动机与目标

解决在噪声大、不完整且被遮挡的RGB-D数据下，非约束环境下鲁棒的3D人脸动作捕捉挑战。
克服现有方法在处理高运动变化、大幅姿态变化和极端面部表情方面的局限性。
开发一种直接从原始RGB-D数据端到端训练的自监督深度学习框架，无需配对的3D真实值监督。
实现在低成本消费级硬件（如配备RGB-D传感器的智能手机）上的实时运行。

提出的方法

训练一种自监督卷积神经网络，联合优化参数化人脸模型的核心张量，并利用原始RGB-D输入优化其参数。
通过顶点位移图和UV图学习表面细节，以捕捉细微的几何变化。
设计一种多组件损失函数，结合图像一致性、特征相似性、正则化、几何一致性、时间一致性与同一身份约束。
在损失函数中引入稀疏范数，以增强对RGB-D数据中噪声和异常值的鲁棒性。
通过新颖的数据增强策略扩充训练数据，以提升模型在多样化条件下的泛化能力。
在配备RGB-D传感器的智能手机上实时部署模型，构建端到端的实时系统。

实验结果

研究问题

RQ1自监督卷积神经网络能否在无3D标注监督的情况下，有效从原始RGB-D数据中学习3D人脸几何与动态？
RQ2结合时间一致性和身份约束的损失函数在提升对遮挡和运动的鲁棒性方面效果如何？
RQ3该方法在极端面部表情、光照变化和大角度头部旋转下的泛化能力有多强？
RQ4系统能否在消费级移动硬件上保持实时性能？
RQ5顶点位移图与UV图学习在非约束条件下捕捉精细面部细节方面的有效性如何？

主要发现

该方法在严重遮挡、快速运动和大角度头部旋转下均实现了鲁棒的3D人脸动作捕捉，优于基线方法。
自监督训练框架无需昂贵的3D真实值标注，同时保持了高重建精度。
引入时间一致性与同一身份约束显著提升了帧间稳定性与一致性。
系统在智能手机上实时运行，证明了其在消费级硬件上的实际可部署性。
顶点位移图与UV图的使用使模型能够学习超越基础参数化人脸模型的精细表面细节。
新颖的数据增强策略显著提升了模型泛化能力，尤其在处理多变光照与表情变化方面。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。