Skip to main content
QUICK REVIEW

[論文レビュー] PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction

Peng Wang, Hao Tan|arXiv (Cornell University)|Nov 20, 2023
Advanced Vision and Imaging被引用数 7
ひとこと要約

PF-LRMは、単一ストリームのトランスフォーマーを用いて、2D画像トークンと3D NeRFトークンの情報を交換し、2D/3Dの統合推論により、少数の未定位画像からカメラ姿勢と3D物体形状を同時に予測します。これにより、スパース入力で最先端の性能を発揮します。

ABSTRACT

We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .

研究の動機と目的

  • 疎で未定位のビューから物体形状と相対的なカメラ姿勢を同時に推定できる姿勢フリーの大規模再構成モデルを動機づける。
  • 2D画像トークンと3D NeRFトークンを1ストリームで情報交換するスケーラブルなトランスフォーマーフレームワークを開発する。
  • NeRFジオメトリで監視されたパッチ中心の3Dポイントから、微分可能なPnPソルバーを用いてパッチごとの姿勢推定を実現する。
  • Objaverse約1Mオブジェクトの学習と未知データセットでの評価により、強力なクロスデータセット一般化を実証する。
  • テキスト/画像から3Dへの下流タスクへの適用性を示し、推論を高速化する。

提案手法

  • 2D画像パッチトークンと3DトリプレンNeRFトークンの結合を処理する単一ストリームのトランスフォーマーを使用する。
  • 新規 viewpoint から神経体積レンダリング supervison によるトリプレンNeRFを予測する。
  • パッチトークンからパッチごとに1つの3D点を持つ逐視点の粗い3D点群を予測して、2D-3D対応を取得する。
  • 予測されたパッチ中心3D点とパッチ中心を用いて、微分可能なPnPソルバーで相対カメラ姿勢を解く。
  • オンラインでNeRFジオメトリを蒸留してパッチ点予測を監督し、微分可能PnPトレーニングを安定化させる。
  • 大規模な多視点データ(約1Mオブジェクト)で学習して、強力なクロスデータセット一般化を達成する。
  • レンダリング損失(NeRFのレンダリング損失)、視点ごとの点の監督、不透明度整合性、頑健な微分可能PnP損失(EPro-PnP)などの損失を用いる。

実験結果

リサーチクエスチョン

  • RQ1単一ストリームのトランスフォーマーは、スパースで未定位のビューからカメラ姿勢と3D物体形状を同時に予測できるか。
  • RQ2NeRF監視付きの大規模でマルチモーダルな2D-3Dトランスフォーマーを活用することで、未知データセット間の一般化が達成されるか。
  • RQ3パッチごとの3D予測に基づく微分可能PnPが、スパースビューシナリオでの姿勢推定に有効か。

主な発見

DatasetMethodR. error ↓Acc.@ 15° ↑Acc.@ 30° ↑T. error ↓
OmniObject3DFORGE71.060.0710.2320.726
OmniObject3DHLoc (F. rate 99.6%)98.650.0830.0831.343
OmniObject3DRelPose++ (w/o bg)69.220.0700.2730.712
OmniObject3DOurs6.320.9620.9900.067
GSOFORGE103.810.0120.0561.100
GSOHLoc (F. rate 97.2%)97.120.0360.1311.199
GSORelPose++ (w/o bg)107.490.0370.0981.143
GSOOurs3.990.9560.9760.041
ABOFORGE105.230.0140.0591.107
ABOHLoc (F. rate 98.8%)94.840.0670.1781.302
ABORelPose++ (w/o bg)102.300.0600.1441.103
ABOOurs16.270.8650.8850.150
CO3DFORGE77.740.1390.2781.181
CO3DHLoc (F. rate 89.0%)55.870.2880.4471.109
CO3DRelPose++ (w/ bg)28.240.7480.8400.448
CO3DOurs15.530.8500.8990.242
DTUFORGE78.880.0460.1881.397
DTUHLoc (F. rate 47.5%)11.840.7250.9150.520
DTURelPose++ (w/ bg)41.840.3690.6570.754
DTUOurs10.420.9000.9510.187
  • PF-LRMは、複数の未知データセットにおける非常にスパースな入力視点での姿勢推定精度を最先端に達成する。
  • OmniObject3D/GSO/ABOで、PF-LRMは回転誤差をベースラインと比べて大幅に低減(例:回転誤差で一部のベースラインに対して約14–15倍)している。
  • unseenデータセットでの新規視点合成品質が優れており、平均PSNRは24.8。
  • 約1Mオブジェクト(ObjaverseおよびMVImgNet)で学習して強力なクロスデータセット一般化を示し、多様な物体カテゴリとシーンへ一般化する。
  • 単一ストリームのトランスフォーマーは2D画像トークンと3D NeRFトークン間の情報交換を効果的に実現し、直接的な3D監視なしで姿勢と形状の予測を共同で行える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。