[論文レビュー] PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction
PF-LRMは、単一ストリームのトランスフォーマーを用いて、2D画像トークンと3D NeRFトークンの情報を交換し、2D/3Dの統合推論により、少数の未定位画像からカメラ姿勢と3D物体形状を同時に予測します。これにより、スパース入力で最先端の性能を発揮します。
We propose a Pose-Free Large Reconstruction Model (PF-LRM) for reconstructing a 3D object from a few unposed images even with little visual overlap, while simultaneously estimating the relative camera poses in ~1.3 seconds on a single A100 GPU. PF-LRM is a highly scalable method utilizing the self-attention blocks to exchange information between 3D object tokens and 2D image tokens; we predict a coarse point cloud for each view, and then use a differentiable Perspective-n-Point (PnP) solver to obtain camera poses. When trained on a huge amount of multi-view posed data of ~1M objects, PF-LRM shows strong cross-dataset generalization ability, and outperforms baseline methods by a large margin in terms of pose prediction accuracy and 3D reconstruction quality on various unseen evaluation datasets. We also demonstrate our model's applicability in downstream text/image-to-3D task with fast feed-forward inference. Our project website is at: https://totoro97.github.io/pf-lrm .
研究の動機と目的
- 疎で未定位のビューから物体形状と相対的なカメラ姿勢を同時に推定できる姿勢フリーの大規模再構成モデルを動機づける。
- 2D画像トークンと3D NeRFトークンを1ストリームで情報交換するスケーラブルなトランスフォーマーフレームワークを開発する。
- NeRFジオメトリで監視されたパッチ中心の3Dポイントから、微分可能なPnPソルバーを用いてパッチごとの姿勢推定を実現する。
- Objaverse約1Mオブジェクトの学習と未知データセットでの評価により、強力なクロスデータセット一般化を実証する。
- テキスト/画像から3Dへの下流タスクへの適用性を示し、推論を高速化する。
提案手法
- 2D画像パッチトークンと3DトリプレンNeRFトークンの結合を処理する単一ストリームのトランスフォーマーを使用する。
- 新規 viewpoint から神経体積レンダリング supervison によるトリプレンNeRFを予測する。
- パッチトークンからパッチごとに1つの3D点を持つ逐視点の粗い3D点群を予測して、2D-3D対応を取得する。
- 予測されたパッチ中心3D点とパッチ中心を用いて、微分可能なPnPソルバーで相対カメラ姿勢を解く。
- オンラインでNeRFジオメトリを蒸留してパッチ点予測を監督し、微分可能PnPトレーニングを安定化させる。
- 大規模な多視点データ(約1Mオブジェクト)で学習して、強力なクロスデータセット一般化を達成する。
- レンダリング損失(NeRFのレンダリング損失)、視点ごとの点の監督、不透明度整合性、頑健な微分可能PnP損失(EPro-PnP)などの損失を用いる。
実験結果
リサーチクエスチョン
- RQ1単一ストリームのトランスフォーマーは、スパースで未定位のビューからカメラ姿勢と3D物体形状を同時に予測できるか。
- RQ2NeRF監視付きの大規模でマルチモーダルな2D-3Dトランスフォーマーを活用することで、未知データセット間の一般化が達成されるか。
- RQ3パッチごとの3D予測に基づく微分可能PnPが、スパースビューシナリオでの姿勢推定に有効か。
主な発見
| Dataset | Method | R. error ↓ | Acc.@ 15° ↑ | Acc.@ 30° ↑ | T. error ↓ |
|---|---|---|---|---|---|
| OmniObject3D | FORGE | 71.06 | 0.071 | 0.232 | 0.726 |
| OmniObject3D | HLoc (F. rate 99.6%) | 98.65 | 0.083 | 0.083 | 1.343 |
| OmniObject3D | RelPose++ (w/o bg) | 69.22 | 0.070 | 0.273 | 0.712 |
| OmniObject3D | Ours | 6.32 | 0.962 | 0.990 | 0.067 |
| GSO | FORGE | 103.81 | 0.012 | 0.056 | 1.100 |
| GSO | HLoc (F. rate 97.2%) | 97.12 | 0.036 | 0.131 | 1.199 |
| GSO | RelPose++ (w/o bg) | 107.49 | 0.037 | 0.098 | 1.143 |
| GSO | Ours | 3.99 | 0.956 | 0.976 | 0.041 |
| ABO | FORGE | 105.23 | 0.014 | 0.059 | 1.107 |
| ABO | HLoc (F. rate 98.8%) | 94.84 | 0.067 | 0.178 | 1.302 |
| ABO | RelPose++ (w/o bg) | 102.30 | 0.060 | 0.144 | 1.103 |
| ABO | Ours | 16.27 | 0.865 | 0.885 | 0.150 |
| CO3D | FORGE | 77.74 | 0.139 | 0.278 | 1.181 |
| CO3D | HLoc (F. rate 89.0%) | 55.87 | 0.288 | 0.447 | 1.109 |
| CO3D | RelPose++ (w/ bg) | 28.24 | 0.748 | 0.840 | 0.448 |
| CO3D | Ours | 15.53 | 0.850 | 0.899 | 0.242 |
| DTU | FORGE | 78.88 | 0.046 | 0.188 | 1.397 |
| DTU | HLoc (F. rate 47.5%) | 11.84 | 0.725 | 0.915 | 0.520 |
| DTU | RelPose++ (w/ bg) | 41.84 | 0.369 | 0.657 | 0.754 |
| DTU | Ours | 10.42 | 0.900 | 0.951 | 0.187 |
- PF-LRMは、複数の未知データセットにおける非常にスパースな入力視点での姿勢推定精度を最先端に達成する。
- OmniObject3D/GSO/ABOで、PF-LRMは回転誤差をベースラインと比べて大幅に低減(例:回転誤差で一部のベースラインに対して約14–15倍)している。
- unseenデータセットでの新規視点合成品質が優れており、平均PSNRは24.8。
- 約1Mオブジェクト(ObjaverseおよびMVImgNet)で学習して強力なクロスデータセット一般化を示し、多様な物体カテゴリとシーンへ一般化する。
- 単一ストリームのトランスフォーマーは2D画像トークンと3D NeRFトークン間の情報交換を効果的に実現し、直接的な3D監視なしで姿勢と形状の予測を共同で行える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。