QUICK REVIEW

[論文レビュー] FaceVR: Real-Time Facial Reenactment and Eye Gaze Control in Virtual Reality

Justus Thies, Michael Zollhöfer|arXiv (Cornell University)|Oct 11, 2016

Face recognition and analysis参考文献 58被引用数 41

ひとこと要約

FaceVR は、VR テレ会議における写真のようにリアルな顔の再現を可能にする、リアルタイムで視線に配慮した画像ベースの方法を提示する。HMD 内部の赤外線眼動追跡と RGB-D 顔再構築、モデルベースの再描画を組み合わせることで、自然な顔の表情と視線の転送を実現し、VR ミーティングにおける実存感を著しく向上させる。

ABSTRACT

We propose FaceVR, a novel image-based method that enables video teleconferencing in VR based on self-reenactment. State-of-the-art face tracking methods in the VR context are focused on the animation of rigged 3d avatars. While they achieve good tracking performance the results look cartoonish and not real. In contrast to these model-based approaches, FaceVR enables VR teleconferencing using an image-based technique that results in nearly photo-realistic outputs. The key component of FaceVR is a robust algorithm to perform real-time facial motion capture of an actor who is wearing a head-mounted display (HMD), as well as a new data-driven approach for eye tracking from monocular videos. Based on reenactment of a prerecorded stereo video of the person without the HMD, FaceVR incorporates photo-realistic re-rendering in real time, thus allowing artificial modifications of face and eye appearances. For instance, we can alter facial expressions or change gaze directions in the prerecorded target video. In a live setup, we apply these newly-introduced algorithmic components.

研究の動機と目的

HMD を着用している間でも、会話相手のリアルな、遮蔽されていないアバターをユーザーが認識できる、リアルで写真のようにリアルな VR テレ会議を実現すること。
HMD が顔を遮蔽することで生じる、自然な顔の表情や視線の認識の障害を克服すること。
正確な眼の視線追跡と、ソース動画からターゲット動画へのリアルな外観転送を実現する、リアルタイムの顔の再現システムを開発すること。
ステレオレンダリングを統合して、VR ヘッドセットでの没入型表示をサポートし、仮想会議における共存感覚を高めること。
プリレコーディングされたターゲット動画に対して、視線の再配向や表情の編集といった人工的変更を、リアリズムを損なわずに可能にすること。

提案手法

外部の RGB-D カメラを用いて、HMD を着用しているユーザーの剛体的および非剛体的顔の動きを捉え、リアルタイムでの 3D 顔再構築を可能にする。
HMD 内部の赤外線カメラを用いて、視線の方向や瞬きを含む眼の動きを、データ駆動型のランダム・フェアンズベース分類手法を用いて追跡する。
モデルベースの再現パイプラインを適用し、HMD を着用していないソース・アクトル（HMD を着用していない）のステレオ動画から、HMD を着用しているアクトルの動きに顔の形状、外観、照明を転送する。
学習済みの外観および照明パラメータを備えた 3D 顔モデルを用いて、目や口を含む顔領域の写真のようにリアルな再レンダリングを実行する。
ソースおよびターゲットの頭部ポーズを合わせることで、顔の特徴（例：口内側）のクロスプロジェクションを可能にし、トラッキングの安定化のためのオプションの剛体カメラ固定を備える。
VR ヘッドセットとの互換性を確保するためのステレオ出力レンダリングをサポートし、仮想会議における没入感と共存感覚を高める。

実験結果

リサーチクエスチョン

RQ1コンsumer デバイスと画像ベースの技術に依存するだけで、rigged 3D アバターに頼らない、VR におけるリアルタイムで視線に配慮した顔の再現が可能かどうか。
RQ2顔が HMD に遮蔽されている状態でも、内部の赤外線カメラのデータのみを用いて、リアルタイムで視線と瞬きを正確に追跡できるか。
RQ3プリレコーディングされたソース動画から、リアルタイムで HMD を着用しているアクトルに、写真のようにリアルな顔の外観と表情をどれほど正確に転送できるか。
RQ4ステレオレンダリングと視線に配慮した再現の統合が、VR テレ会議における共存感覚にどのように影響を与えるか。
RQ5リアルタイムの VR における顔の再現において、頭部ポーズの変化や顔の遮蔽に対処する上での主な制限要因は何か。

主な発見

外部の RGB-D カメラと内部の赤外線カメラのデータを融合することで、FaceVR は、HMD を着用しているアクトルに対しても、安定した顔のトラッキングと再現が可能なリアルタイム性能を達成している。
ランダム・フェアンズに基づく提案された眼の追跡法は、低コストで高い精度を達成しており、視線の方向と瞬きの正確な検出を可能にしている。
知覚的評価では、FaceVR が会話相手と対面している印象を著しく向上させていることが示され、ステレオ出力とモノスクーピック出力のそれぞれで平均満足度スコアが 2.281 および 2.09 であった。
本システムは、プリレコーディングされた動画に対して視線の再配向や表情の編集といった人工的変更を、写真のようにリアルな品質を維持したまま実行可能である。
本手法はステレオ再レンダリングをサポートしており、没入感を高め、標準的な VR ヘッドセットとも互換性があるため、全体的なテレ会議体験が向上する。
制限事項として、ターゲット動画における剛体的頭部ポーズの変更が不可能であり、赤外線カメラの視野が限られているため上顔の一部が遮蔽されることがあるが、これらは今後の研究課題として認識されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。