QUICK REVIEW

[論文レビュー] KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints

Marko Mihajlovic, Aayush Bansal|arXiv (Cornell University)|Jan 1, 2022

Human Pose and Action Recognition被引用数 2

ひとこと要約

KeypointNeRF は、スパースな3次元キーポイントを用いた新しい空間符号化手法を提案し、2〜3枚のビューからの高精度で一般化可能な画像ベースのボリュメトリックな人体再構築を可能にした。グローバル符号化に依存するのではなく、キーポイントに対する相対的な3次元空間情報を符号化することで、再訓練なしに未観測の被験者や屋外で撮影されたiPhoneのキャプチャに対しても、最先端の性能と高い一般化性能を達成した。

ABSTRACT

Image-based volumetric humans using pixel-aligned features promise generalization to unseen poses and identities. Prior work leverages global spatial encodings and multi-view geometric consistency to reduce spatial ambiguity. However, global encodings often suffer from overfitting to the distribution of the training data, and it is difficult to learn multi-view consistent reconstruction from sparse views. In this work, we investigate common issues with existing spatial encodings and propose a simple yet highly effective approach to modeling high-fidelity volumetric humans from sparse views. One of the key ideas is to encode relative spatial 3D information via sparse 3D keypoints. This approach is robust to the sparsity of viewpoints and cross-dataset domain gap. Our approach outperforms state-of-the-art methods for head reconstruction. On human body reconstruction for unseen subjects, we also achieve performance comparable to prior work that uses a parametric human body model and temporal feature aggregation. Our experiments show that a majority of errors in prior work stem from an inappropriate choice of spatial encoding and thus we suggest a new direction for high-fidelity image-based human modeling. https://markomih.github.io/KeypointNeRF

研究の動機と目的

画像ベースのニューラルレンディアンスフィールドにおけるグローバル空間符号化の限界を解消すること。
特にスパarsな、かつ広基線のビューにおいて、未観測のアイデンティティやポーズへの一般化を向上させること。
再トレーニングなしにスタジオで撮影されたデータから屋外のiPhoneキャプチャへゼロショット転送を可能にすること。
パrametricなボディモデルや時間的特徴の集約に依存せずに、高精度なボリュメトリック再構築を達成すること。
人間のアバター向けニューラルレンダリングにおける空間符号化の選択が再構築品質と一般化性能に与える影響を調査すること。

提案手法

本手法は、入力ビューの各々に対して2次元キーポイント検出器を用いて2次元キーポイントを推定し、それらを三角測量によって3次元キーポイントに変換する。
各クエリポイントの位置を3次元キーポイントに対して相対的な位置として符号化するため、学習可能な埋め込み層を用いて相対的空間符号化を計算する。
相対的空間符号化はピクセルにアラインされた特徴と連結され、NeRFベースのレイトランスフィールドネットワークに供給され、ボリュームレンダリングが行われる。
空間符号化はカメラパラメータに依存しないため、ポーズや視点の変化に対してもロバストである。
モデルは、レンダリングされた画像に対するマルチビュー整合性損失とL1損失を用いて、エンドツーエンドで訓練される。
本手法はパラメトリックボディモデルや時間的特徴統合を必要としないため、全身再構築への直接適用が可能である。

実験結果

リサーチクエスチョン

RQ1空間符号化の選択が、画像ベースのボリュメトリック人体再構築における一般化性能に与える影響は何か？
RQ23次元キーポイントを用いた相対的空間符号化は、スパースで広基線のビュー下でも再構築の正確性とロバスト性を向上させ得るか？
RQ3スタジオで撮影されたデータで訓練されたモデルが、微調整なしに屋外のiPhoneキャプチャへどの程度一般化可能か？
RQ4キーポイントベースの空間符号化は、未観測のアイデンティティやポーズへのゼロショット一般化において、グローバル符号化を上回る性能を示すか？
RQ5キーポイントのみに依存するアプローチは、パラメトリックボディモデルや時間的集約に依存する複雑な手法と同等の性能を達成できるか？

主な発見

KeypointNeRF は、動的で表情を変える状況においても、頭部再構築で最先端の性能を達成し、PSNR 27.30、SSIM 85.31 を記録した。
屋外のiPhoneキャプチャにおいて、KeypointNeRF はPSNR 25.29、SSIM 86.73 を達成し、IBRNet（PSNR 18.45、SSIM 81.74）を顕著に上回った。
本手法は、スタジオで撮影されたデータでの学習のみを用いて、未観測のiPhoneキャプチャへゼロショットで一般化可能であり、これまでは達成されていなかった能力である。
ZJU-MoCapデータセットにおける全身再構築において、KeypointNeRF はPSNR 25.03、SSIM 89.69 を達成し、複雑なNeural Human Performer（NHP）と同等の性能を示した。
アブレーションスタディの結果、相対的空間符号化を削除するとPSNRが24.66、SSIMが89.30に低下し、その重要性が確認された。
本手法は、従来の研究における再構築エラーの主な原因が不適切な空間符号化にある可能性を示唆し、ニューラルレンダリング分野における新たな方向性を提示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。