QUICK REVIEW

[論文レビュー] GPAvatar: Generalizable and Precise Head Avatar from Image(s)

Xuangeng Chu, Li Yu|arXiv (Cornell University)|Jan 18, 2024

Advanced Vision and Imaging被引用数 5

ひとこと要約

GPAvatar は、動的ポイントベース表現場と Multi Tri-planes Attention フュージョンモジュールを用いて、テスト時最適化なしに、1 枚以上の画像からアニメーション可能な 3D ヘッドアバターを1回の前方伝播で再構成し、正確な表現制御と多視点の一貫性を達成します。

ABSTRACT

Head avatar reconstruction, crucial for applications in virtual reality, online meetings, gaming, and film industries, has garnered substantial attention within the computer vision community. The fundamental objective of this field is to faithfully recreate the head avatar and precisely control expressions and postures. Existing methods, categorized into 2D-based warping, mesh-based, and neural rendering approaches, present challenges in maintaining multi-view consistency, incorporating non-facial information, and generalizing to new identities. In this paper, we propose a framework named GPAvatar that reconstructs 3D head avatars from one or several images in a single forward pass. The key idea of this work is to introduce a dynamic point-based expression field driven by a point cloud to precisely and effectively capture expressions. Furthermore, we use a Multi Tri-planes Attention (MTA) fusion module in the tri-planes canonical field to leverage information from multiple input images. The proposed method achieves faithful identity reconstruction, precise expression control, and multi-view consistency, demonstrating promising results for free-viewpoint rendering and novel view synthesis.

研究の動機と目的

見たことのないアイデンティティへ一般化する、正確で表現力豊かな3Dヘッドアバター再構成を動機付ける。
表現と姿勢を正確に制御しつつ、アイデンティティの忠実な保持を可能にする。
テスト時最適化なしで、多視点の一貫性と遮蔽への頑健性を達成する。
アイデンティティと表現のデカップリングを実現するため、ポイントベース表現場とマルチ画像融合を活用する。
リアルタイムまたはインタラクティブな用途に適した高速推論パイプラインを提供する。

提案手法

3Dヘッドアバター表現のバックボーンとして三平面正準特徴空間を使用する。
動的表現を捉えるため、学習可能な重みを持つFLAME頂点点から構築されたPoint-based Expression Field (PEF)を導入する。
相対位置エンコーディングを用いた最近傍点特徴回帰を介してPEFをNeRFのサンプリングプロセスに結合する。
遮蔽されたり十分に表現されていない領域を改善するため、Multi Tri-planes Attention (MTA) モジュールを用いて複数入力画像の情報を融合する。
2パスの階層的サンプリングでボリュームをレンダリングし、高品質な出力のために軽量な超解像モジュールを適用する。
低解像度および高解像度の再演に対してL1および知覚損失と、アーティファクトを減らすための密度ノルム損失を用いてエンドツーエンドで訓練する。

Figure 1: Our GPAvatar is able to reconstruct 3D head avatars from even a single input ( i.e. , one-shot), with strong generalization and precise expression control. The leftmost images are the inputs, and the subsequent images depict reenactment results. Inset images display the corresponding drivi

実験結果

リサーチクエスチョン

RQ1GPAvatar は、テスト時最適化なしで、1枚または数枚の画像から未知のアイデンティティへ一般化できるか？
RQ2ポイントベースの表現場は、3DMMベースやNeRFベースの代替案よりも、より細かく自然な表現制御を可能にするか？
RQ3Multi Tri-planes Attention を介して複数画像を統合することが、遮蔽や極端な姿勢下での再演品質にどう影響するか？
RQ4PEFとMTAが、データセット全体の合成と表現精度の客観的指標に与える影響はどの程度か？
RQ5標準的なハードウェアで実用的な再演と自由視点レンダリングに十分な速さがあるか？

主な発見

GPAvatar は、単一の前方伝播で忠実なアイデンティティ再構成と正確な表現制御を実現する。
PEF は自然な、アイデンティティを横断した表現制御を提供し、ベースラインより表現精度（AED、AKD）を向上させる。
MTA は複数入力からの情報を効果的に融合し、ディテールを向上させ、平均化によるブレを生じずに遮蔽を処理する。
VFHQ および HDTF において、本手法は自己および他者アイデンティティ再演設定の最先端の合成品質と表現制御を達成する。
推論は A100 GPU 上で約 15 FPS、訓練は約50 GPU 時間（150k イテレーション）で完了。
アブレーション研究は、PEFとMTA が顕著な向上をもたらすことを示し、グローバルポイントサンプリングは局所的または純粋に局所的な手法を上回る。

Figure 2: Differences from existing state-of-the-art methods. Existing methods may over-process expression information or use expression features, leading to expression detail loss. Our approach avoids this loss with a point-based expression field, and our method flexibly accepts single or multiple

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。