[論文レビュー] MV-SAM3D: Adaptive Multi-View Fusion for Layout-Aware 3D Generation
MV-SAM3Dはレイアウト認識型3D生成を多視点入力へ拡張し、信頼度認識融合と物理認識の姿勢最適化を導入することで、再学習なしに高忠実度かつ物理的に妥当な複数オブジェクトシーンを達成。
Recent unified 3D generation models have made remarkable progress in producing high-quality 3D assets from a single image. Notably, layout-aware approaches such as SAM3D can reconstruct multiple objects while preserving their spatial arrangement, opening the door to practical scene-level 3D generation. However, current methods are limited to single-view input and cannot leverage complementary multi-view observations, while independently estimated object poses often lead to physically implausible layouts such as interpenetration and floating artifacts. We present MV-SAM3D, a training-free framework that extends layout-aware 3D generation with multi-view consistency and physical plausibility. We formulate multi-view fusion as a Multi-Diffusion process in 3D latent space and propose two adaptive weighting strategies -- attention-entropy weighting and visibility weighting -- that enable confidence-aware fusion, ensuring each viewpoint contributes according to its local observation reliability. For multi-object composition, we introduce physics-aware optimization that injects collision and contact constraints both during and after generation, yielding physically plausible object arrangements. Experiments on standard benchmarks and real-world multi-object scenes demonstrate significant improvements in reconstruction fidelity and layout plausibility, all without any additional training. Code is available at https://github.com/devinli123/MV-SAM3D.
研究の動機と目的
- 単眼から多視点入力へのレイアウト認識型3D生成を retraining なしで拡張する。
- 視点間での信頼度認識融合を有効化し、幻像を減らす。
- 衝突回避と物理的に妥当なオブジェクト配置を生み出す物理認識制約を組み込む。
- レイアウト認識型生成を備えた複数オブジェクトシーン構成の完全なパイプラインを提供する。
提案手法
- 多視点融合を3D潜在空間におけるMulti-Diffusionプロセスとして定式化する。
- クロスアテンションエントロピーから各点の観測信頼度を推定するためのアテンションエントロピーウェイティングを導入する。
- レイ追跡によって計算される幾何学的可視性に基づく可視性ウェイティングを導入する。
- ビュー間でのロバストで信頼度認識の融合のためにウェイトを組み合わせる。
- 生成時のフロー整合性(レイアウト注入)に衝突物理と接触物理を注入する。
- 生成後の姿勢リファインメントが衝突を最小化し観測と整合性を高めるようオブジェクト姿勢を最適化する。
実験結果
リサーチクエスチョン
- RQ1レイアウト認識型 Diffusion ベースの3Dジェネレータを retraining なしでどのように多視点観測に融合できるか?
- RQ2信頼度認識融合(暗黙的アテンションベースおよび明示的な幾何ベース)が多視点3D再構成の品質とテクスチャ忠実度を改善できるか?
- RQ3物理ベースのレイアウト最適化を組み込むと、生成パイプラインで物理的に妥当で衝突のない複数オブジェクトシーンとなるか?
主な発見
| Method | #Views | PSNR↑ | Depth MAE↓ | Depth RMSE↓ | Acc@5cm↑ | RelAcc@5%↑ | Cov.↑ |
|---|---|---|---|---|---|---|---|
| SAM3D | 1 | 19.52 | 0.079 | 0.107 | 55.66 | 44.07 | 61.20 |
| MV-SAM3D w/o Opt. | 2 | 19.95 | 0.068 | 0.095 | 60.23 | 49.52 | 66.48 |
| MV-SAM3D (Full) | 2 | 21.83 | 0.025 | 0.055 | 91.66 | 91.13 | 97.22 |
- 適応ウェイティングを用いた多視点融合は、再現性とレイアウト精度で単視点ベースラインを上回る。
- アテンションエントロピーウェイティングはステージを通じて構造とテクスチャ忠実度を向上させる。
- 可視性ウェイティングは対称的または繰り返しのテクスチャの曖昧さを解消するのに役立つ。
- 物理認識姿勢最適化はオブジェクト間衝突を大幅に減少させ、空間配置の整合性を改善する。
- 完全な MV-SAM3D パイプラインは、複数オブジェクトシーンにおいて SAM3D および他のベースラインより高い PSNR、深度精度、シーン整合性を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。