[論文レビュー] Pano3DComposer: Feed-Forward Compositional 3D Scene Generation from Single Panoramic Image
Pano3DComposerは、オブジェクト生成とレイアウト整列を分離し、プラグアンドプレイ可能なオブジェクト世界変換予測器とCoarse-to-Fine整列機構を用いて、単一のパノラマから360度の構成的3Dシーンを作成します。
Current compositional image-to-3D scene generation approaches construct 3D scenes by time-consuming iterative layout optimization or inflexible joint object-layout generation. Moreover, most methods rely on limited field-of-view perspective images, hindering the creation of complete 360-degree environments. To address these limitations, we design Pano3DComposer, an efficient feed-forward framework for panoramic images. To decouple object generation from layout estimation, we propose a plug-and-play Object-World Transformation Predictor. This module converts the 3D objects generated by off-the-shelf image-to-3D models from local to world coordinates. To achieve this, we adapt the VGGT architecture to Alignment-VGGT by using target object crop, multi-view object renderings and camera parameters to predict the transformation. The predictor is trained using pseudo-geometric supervision to address the shape discrepancy between generated and ground-truth objects. For input images from unseen domains, we further introduce a Coarse-to-Fine (C2F) alignment mechanism for Pano3DComposer that iteratively refines geometric consistency with feedback of scene rendering. Our method achieves superior geometric accuracy for image/text-to-3D tasks on synthetic and real-world datasets. It can generate a high-fidelity 3D scene in approximately 20 seconds on an RTX 4090 GPU. Project page: https://qiuzidian.github.io/pano3dcomposer-page/.
研究の動機と目的
- 単一の等距円筒パノラマから幾何学的一貫性のある高速な構成的3Dシーン生成を実現する。
- オブジェクト生成とレイアウト推定をデカップリングして、既製の3Dオブジェクトジェネレータのプラグアンドプレイ統合を可能にする。
- Alignment-VGGTを導入して、疑似幾何監督付きでオブジェクト-to-世界変換を予測する。
- 勾配に基づく最適化を用いずに、 unseenドメイン上で幾何を精練するCoarse-to-Fine (C2F) 整列機構を提供する。
- 合成および実世界のパノラマで、幾何学的精度と効率の優位性を実証する。
提案手法
- 各オブジェクトごとに歪みのないパースペクティブクロップを得るためにパノラマを前処理する。
- 市販の3Dオブジェクトジェネレータを用いて各クロップから3Dオブジェクト資産を生成する。
- multi-viewレンダリングとターゲットクロップから、Alignment-VGGTを用いてオブジェクト-to-世界変換を予測する。
- オフライン最適化器または単眼RGBD監督から蒸留された疑似幾何監督で変換予測器を訓練する。
- 背景再構成とインペインティングのパイプラインを適用してシーンを完成させ、背景とオブジェクトを360°シーンとして融合させる。
- 任意でPano3DComposer-C2Fを拡張する。これはレンダリングフィードバックを用いて姿勢を段階的に調整する反復精練子。
実験結果
リサーチクエスチョン
- RQ1単一のフィードフォワードパスで独立して生成された3Dオブジェクトをパノラマシーンに整列させるにはどうすればよいか。
- RQ2クロス座標幾何モデリングは、コストの高い最適化を伴わずに、360°パノラマに対するオブジェクト-to-世界変換を正確に予測できるか。
- RQ3勾配ベースの最適化なしに見知らぬドメインデータ上でCoarse-to-Fineの反復精練は整列を改善できるか。
- RQ4提案手法は、幾何と効率の点で最先端のパノラマ-to-3Dシーン生成およびテキスト-to-3Dのベースラインと比較してどうか。
主な発見
| Method | CD-S ↓ | CD-O ↓ | F-Score-S ↑ | F-Score-O ↑ | IoU-B ↑ | Training Resources | Inference Time (s) |
|---|---|---|---|---|---|---|---|
| OPT | 0.1059 | 0.1128 | 0.5535 | 0.5640 | 0.4010 | – | 120 |
| ICP [18] | 0.2483 | 0.2305 | 0.4524 | 0.4896 | 0.2830 | – | 1 |
| DeepPanoContext [44] | 0.7851 | 0.1657 | 0.3101 | 0.3822 | 0.0021 | – | 14 |
| SceneGen [27] | 0.1765 | 0.0914 | 0.4575 | 0.4827 | 0.1124 | 56 GPU days | 63 |
| Pano3DComposer (Ours) | 0.0787 | 0.0765 | 0.6923 | 0.6926 | 0.5679 | 2 GPU days | 20 |
| Pano3DComposer-C2F (Ours) | 0.0784 | 0.0762 | 0.6930 | 0.6937 | 0.5699 | 4 GPU days | 24 |
| Pseudo Geometry | 0.0119 | 0.0119 | 0.8695 | 0.8781 | 0.8141 | – | – |
- Pano3DComposerは、複数の指標で合成世界と実写パノラマの幾何と効率の優位性を示す。
- RTX 4090上で1シーンあたり約20秒、Pano3DComposer-C2Fは24秒で高忠実度の3Dシーンを生成する。
- 疑似幾何監督を用いたAlignment-VGGTベースの予測器は、従来のICPおよび微分可能な最適化ベースラインよりも優れている。
- Coarse-to-Fine再構成は最小の追加コストで整列を改善し、実世界パノラマにも一般化する。
- プラグアンドプレイ設計により、再訓練なしでオフ・ザ・シェルフの3Dオブジェクト生成器を統合でき、高品質な構成を維持できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。