QUICK REVIEW

[論文レビュー] Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs

Yury Kartynnik, Artsiom Ablavatski|arXiv (Cornell University)|Jul 15, 2019

Face recognition and analysis参考文献 6被引用数 58

ひとこと要約

この論文は、単一のモノキュラ動画フレームから密な468点の3D顔メッシュを予測するニューラルネットワークモデルを提示し、ライトウェイトなバリアントでリアルタイムのモバイル GPU 推論を実現する。

ABSTRACT

We present an end-to-end neural network-based model for inferring an approximate 3D mesh representation of a human face from single camera input for AR applications. The relatively dense mesh model of 468 vertices is well-suited for face-based AR effects. The proposed model demonstrates super-realtime inference speed on mobile GPUs (100-1000+ FPS, depending on the device and model variant) and a high prediction quality that is comparable to the variance in manual annotations of the same image.

研究の動機と目的

単一のRGBフレームからAR用のリアルタイム3D顔表面ジオメトリの取得を動機づけ、実現する。
表現力豊かなAR効果に適した468点の顔メッシュトポロジーを提案する。
アノテータ間のばらつきと同等程度の精度でモバイルGPU上のリアルタイム推論を達成する。
顔検出とアライメントからメッシュ予測と時系列安定化までのエンドツーエンドのパイプラインを提供する。

提案手法

256×256（フル）または128×128（軽量）の切り出し入力から468メッシュ頂点の3D座標を回帰する残差ニューラルネットワークを使用する。
画像空間でのx,y座標を出力し、zは基準平面に対する深度として出力し、アスペクト比を維持するためのリスケーリングを行う。
軽量な顔検出器と顔アライメント手順を組み込んで入力フレームを切り出し整列する。
各ランドマーク座標に1次元の時系列フィルタ（1 Euro filterに触発）を適用して動画シーケンスの揺れを低減する。
ブートストラップのために合成3DMMレンダリングと2Dセマンティックランドマークを用いて訓練し、その後野外データで反復的に改良する。

実験結果

リサーチクエスチョン

RQ1モノキュラビデオから高忠実度でモバイル機器上で468点の密な3D顔メッシュを推定できるか？
RQ2様々なGPU/CPUを搭載したデバイスでリアルタイム推論に軽量アーキテクチャが十分か？
RQ3提案された時系列フィルタリングが動画中のランドマーク軌道の視覚的安定性にどう影響するか？
RQ4モバイル環境における入力解像度が精度と速度に与える影響はどの程度か？
RQ5フルメトリック精度を満たさずにARアプリケーション向けに視覚的に妥当な深度を達成するために、synthetic＋refinement 訓練は有効か？

主な発見

全モデルは2D座標で3.96%の眼間距離(IOD)平均絶対誤差(MAD)を達成し、深度は合成による監視で学習される。
256x256入力でiPhone XSでフレームあたり2.5 ms、Pixel 3で7.4 msのGPU対応フルモデル。
128x128の軽量モデルは1 ms（iPhone XS）と3.4 ms（Pixel 3）、5.15% IOD MAD。
最軽量モデルは128x128で0.7 ms（iPhone XS）と2.6 ms（Pixel 3）、5.29% IOD MAD。
時系列フィルタリングはフレーム間の揺れを低減しつつ、動画シーケンスの応答性を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。