QUICK REVIEW

[論文レビュー] Self-supervised CNN for Unconstrained 3D Facial Performance Capture from an RGB-D Camera.

Yudong Guo, Juyong Zhang|arXiv (Cornell University)|Aug 16, 2018

Face recognition and analysis参考文献 76被引用数 5

ひとこと要約

本論文では、遮蔽、高速運動、極端な表情などの制約のない条件下でも、コンsumerレベルのRGB-Dカメラからのリアルタイム3D顔面パフォーマンスキャプチャを実現する自己教師付きCNNを提案する。頂点の変位とUVマップを用いて、パラメトリックな顔モデルと表面の詳細を同時に学習し、時間的整合性とアイデンティティ制約を組み込んだ新しい損失関数を用いることで、スマートフォン上でもロバストでリアルタイムの性能を達成する。

ABSTRACT

We present a novel method for real-time 3D facial performance capture with consumer-level RGB-D sensors. Our capturing system is targeted at robust and stable 3D face capturing in the wild, in which the RGB-D facial data contain noise, imperfection and occlusion, and often exhibit high variability in motion, pose, expression and lighting conditions, thus posing great challenges. The technical contribution is a self-supervised deep learning framework, which is trained directly from raw RGB-D data. The key novelties include: (1) learning both the core tensor and the parameters for refining our parametric face model; (2) using vertex displacement and UV map for learning surface detail; (3) designing the loss function by incorporating temporal coherence and same identity constraints based on pairs of RGB-D images and utilizing sparse norms, in addition to the conventional terms for photo-consistency, feature similarity, regularization as well as geometry consistency; and (4) augmenting the training data set in new ways. The method is demonstrated in a live setup that runs in real-time on a smartphone and an RGB-D sensor. Extensive experiments show that our method is robust to severe occlusion, fast motion, large rotation, exaggerated facial expressions and diverse lighting.

研究の動機と目的

ノイズが多く不完全で遮蔽があるRGB-Dデータを扱う、制約のない環境下でのロバストな3D顔面パフォーマンスキャプチャの課題に対処すること。
既存手法が高運動変動、大きなポーズ変化、極端な顔の表情に対処できないという限界を克服すること。
ペアの3Dグランドトゥーを必要とせず、rawなRGB-Dデータから直接学習する自己教師付きディープラーニングフレームワークの開発。
スマートフォンなどの低コストのコンsumerハードウェアでもリアルタイム動作を可能にすること。

提案手法

パラメトリックな顔モデルのコアテンソルとそのパラメータを、rawなRGB-D入力を用いて同時に最適化する自己教師付きCNNを訓練する。
頂点の変位マップとUVマップを用いて、微細な幾何的変動を捉える表面の詳細を学習する。
写真的一致性、特徴類似性、正則化、幾何的一致性、時間的整合性、同一アイデンティティ制約を組み合わせたマルチコンponent損失関数を設計する。
RGB-Dデータにおけるノイズや外れ値に対してロバスト性を高めるために、損失関数にスパースノルムを組み込む。
多様な条件下での一般化を向上させるために、新しいデータオーグメンテーション戦略を用いてトレーニングデータを拡張する。
RGB-Dセンサを搭載したスマートフォン上でリアルタイムに動作するライブシステムにモデルをデプロイする。

実験結果

リサーチクエスチョン

RQ1自己教師付きCNNは、3Dグランドトゥーのアノテーションがなくても、rawなRGB-Dデータから3D顔面の幾何とダイナミクスを効果的に学習できるか？
RQ2時間的整合性と同一アイデンティティ制約を組み込んだ提案損失関数は、遮蔽や運動に対してどれほどロバスト性を向上させるか？
RQ3本手法は、極端な顔の表情、照明変化、大きな頭部回転に対し、どの程度一般化できるか？
RQ4システムは、コンsumerクラスのモバイルハードウェアでもリアルタイムで動作を維持できるか？
RQ5制約のない条件下で、頂点の変位とUVマップの学習は、微細な顔面の詳細をどの程度効果的に捉えられるか？

主な発見

本手法は、重度の遮蔽、高速運動、大きな頭部回転に対しても、ロバストな3D顔面パフォーマンスキャプチャを達成し、ベースライン手法を上回る性能を示した。
自己教師付きトレーニングフレームワークにより、高価な3Dグランドトゥーのアノテーションを不要としつつも、高い再構成精度を維持した。
時間的整合性と同一アイデンティティ制約の組み込みにより、フレーム間の安定性と一貫性が顕著に向上した。
システムはスマートフォン上でリアルタイムに動作し、コンsumerハードウェアへの実用的デプロイの可能性を示した。
頂点の変位マップとUVマップの使用により、ベースとなるパラメトリック顔モデルを超えた微細な表面の詳細をモデルが学習できた。
新しいデータオーグメンテーション戦略により、特に多様な照明や表情の変化に対処する能力が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。