QUICK REVIEW

[論文レビュー] PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction

Peng Wang, Hao Tan|arXiv (Cornell University)|Nov 20, 2023

Advanced Vision and Imaging被引用数 7

ひとこと要約

PF-LRMは、単一ストリームのトランスフォーマーを用いて、2D画像トークンと3D NeRFトークンの情報を交換し、2D/3Dの統合推論により、少数の未定位画像からカメラ姿勢と3D物体形状を同時に予測します。これにより、スパース入力で最先端の性能を発揮します。

ABSTRACT

We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .

研究の動機と目的

疎で未定位のビューから物体形状と相対的なカメラ姿勢を同時に推定できる姿勢フリーの大規模再構成モデルを動機づける。
2D画像トークンと3D NeRFトークンを1ストリームで情報交換するスケーラブルなトランスフォーマーフレームワークを開発する。
NeRFジオメトリで監視されたパッチ中心の3Dポイントから、微分可能なPnPソルバーを用いてパッチごとの姿勢推定を実現する。
Objaverse約1Mオブジェクトの学習と未知データセットでの評価により、強力なクロスデータセット一般化を実証する。
テキスト/画像から3Dへの下流タスクへの適用性を示し、推論を高速化する。

提案手法

2D画像パッチトークンと3DトリプレンNeRFトークンの結合を処理する単一ストリームのトランスフォーマーを使用する。
新規 viewpoint から神経体積レンダリング supervison によるトリプレンNeRFを予測する。
パッチトークンからパッチごとに1つの3D点を持つ逐視点の粗い3D点群を予測して、2D-3D対応を取得する。
予測されたパッチ中心3D点とパッチ中心を用いて、微分可能なPnPソルバーで相対カメラ姿勢を解く。
オンラインでNeRFジオメトリを蒸留してパッチ点予測を監督し、微分可能PnPトレーニングを安定化させる。
大規模な多視点データ（約1Mオブジェクト）で学習して、強力なクロスデータセット一般化を達成する。
レンダリング損失（NeRFのレンダリング損失）、視点ごとの点の監督、不透明度整合性、頑健な微分可能PnP損失（EPro-PnP）などの損失を用いる。

実験結果

リサーチクエスチョン

RQ1単一ストリームのトランスフォーマーは、スパースで未定位のビューからカメラ姿勢と3D物体形状を同時に予測できるか。
RQ2NeRF監視付きの大規模でマルチモーダルな2D-3Dトランスフォーマーを活用することで、未知データセット間の一般化が達成されるか。
RQ3パッチごとの3D予測に基づく微分可能PnPが、スパースビューシナリオでの姿勢推定に有効か。

主な発見

Dataset	Method	R. error ↓	Acc.@ 15° ↑	Acc.@ 30° ↑	T. error ↓
OmniObject3D	FORGE	71.06	0.071	0.232	0.726
OmniObject3D	HLoc (F. rate 99.6%)	98.65	0.083	0.083	1.343
OmniObject3D	RelPose++ (w/o bg)	69.22	0.070	0.273	0.712
OmniObject3D	Ours	6.32	0.962	0.990	0.067
GSO	FORGE	103.81	0.012	0.056	1.100
GSO	HLoc (F. rate 97.2%)	97.12	0.036	0.131	1.199
GSO	RelPose++ (w/o bg)	107.49	0.037	0.098	1.143
GSO	Ours	3.99	0.956	0.976	0.041
ABO	FORGE	105.23	0.014	0.059	1.107
ABO	HLoc (F. rate 98.8%)	94.84	0.067	0.178	1.302
ABO	RelPose++ (w/o bg)	102.30	0.060	0.144	1.103
ABO	Ours	16.27	0.865	0.885	0.150
CO3D	FORGE	77.74	0.139	0.278	1.181
CO3D	HLoc (F. rate 89.0%)	55.87	0.288	0.447	1.109
CO3D	RelPose++ (w/ bg)	28.24	0.748	0.840	0.448
CO3D	Ours	15.53	0.850	0.899	0.242
DTU	FORGE	78.88	0.046	0.188	1.397
DTU	HLoc (F. rate 47.5%)	11.84	0.725	0.915	0.520
DTU	RelPose++ (w/ bg)	41.84	0.369	0.657	0.754
DTU	Ours	10.42	0.900	0.951	0.187

PF-LRMは、複数の未知データセットにおける非常にスパースな入力視点での姿勢推定精度を最先端に達成する。
OmniObject3D／GSO／ABOで、PF-LRMは回転誤差をベースラインと比べて大幅に低減（例：回転誤差で一部のベースラインに対して約14–15倍）している。
unseenデータセットでの新規視点合成品質が優れており、平均PSNRは24.8。
約1Mオブジェクト（ObjaverseおよびMVImgNet）で学習して強力なクロスデータセット一般化を示し、多様な物体カテゴリとシーンへ一般化する。
単一ストリームのトランスフォーマーは2D画像トークンと3D NeRFトークン間の情報交換を効果的に実現し、直接的な3D監視なしで姿勢と形状の予測を共同で行える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。