Skip to main content
QUICK REVIEW

[논문 리뷰] MV-SAM3D: Adaptive Multi-View Fusion for Layout-Aware 3D Generation

Baicheng Li, Dong Wu|arXiv (Cornell University)|2026. 03. 12.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

MV-SAM3D는 재훈련 없이 신뢰도 인식 융합과 물리학 기반 자세 최적화를 통해 레이아웃 인식 3D 생성의 다중 시야 입력으로 확장하여, 더 높은 충실도와 물리적으로 타당한 다중 객체 장면을 달성합니다.

ABSTRACT

Recent unified 3D generation models have made remarkable progress in producing high-quality 3D assets from a single image. Notably, layout-aware approaches such as SAM3D can reconstruct multiple objects while preserving their spatial arrangement, opening the door to practical scene-level 3D generation. However, current methods are limited to single-view input and cannot leverage complementary multi-view observations, while independently estimated object poses often lead to physically implausible layouts such as interpenetration and floating artifacts. We present MV-SAM3D, a training-free framework that extends layout-aware 3D generation with multi-view consistency and physical plausibility. We formulate multi-view fusion as a Multi-Diffusion process in 3D latent space and propose two adaptive weighting strategies -- attention-entropy weighting and visibility weighting -- that enable confidence-aware fusion, ensuring each viewpoint contributes according to its local observation reliability. For multi-object composition, we introduce physics-aware optimization that injects collision and contact constraints both during and after generation, yielding physically plausible object arrangements. Experiments on standard benchmarks and real-world multi-object scenes demonstrate significant improvements in reconstruction fidelity and layout plausibility, all without any additional training. Code is available at https://github.com/devinli123/MV-SAM3D.

연구 동기 및 목표

  • 단일 시야에서 다중 시야 입력으로 레이아웃 인식 3D 생성을 재훈련 없이 확장합니다.
  • 다중 시야 간 신뢰도 인식 융합을 가능하게 하여 환각을 줄입니다.
  • 충돌 없는 물리적으로 타당한 물체 배치를 만들기 위한 물리 인식 제약을 도입합니다.
  • 레이아웃 인식 생성을 포함한 다중 객체 장면 구성을 위한 완전한 파이프라인을 제공합니다.

제안 방법

  • 다중 시야 융합을 3D 잠재공간에서의 Multi-Diffusion 프로세스로 형식화합니다.
  • 교차 주의 엔트로피로부터 포인트별 관찰 신뢰도를 추정하기 위해 주의-엔트로피 가중치를 도입합니다.
  • 레이 트레이싱을 통해 계산된 기하학적 가시성을 기반으로 가시성 가중치를 도입합니다.
  • 다중 시야 간의 견고하고 신뢰도 있는 융합을 위해 가중치를 결합합니다.
  • 생성 중 흐름 매칭 궤도에 충돌 및 접촉 물리학을 주입합니다(레이아웃 주입).
  • 생성 후 포즈 정제는 충돌을 최소화하고 관측과의 정합성을 높이도록 물체 포즈를 최적화합니다.

실험 결과

연구 질문

  • RQ1재훈련 없이 레이아웃 인식 확산 기반 3D 생성기에서 다중 시야 관측을 어떻게 융합할 수 있는가?
  • RQ2암시적 주의 기반 및 명시적 기하 기반의 신뢰도 인식 융합이 다중 시야 3D 재구성 품질과 텍스처 충실도를 향상시킬 수 있는가?
  • RQ3물리 기반 레이아웃 최적화를 포함하는 것이 생성 파이프라인에서 물리적으로 타당하고 충돌 없는 다중 객체 장면을 만들어내는가?

주요 결과

방법#시야PSNR↑Depth MAE↓Depth RMSE↓Acc@5cm↑RelAcc@5%↑커버리지↑
SAM3D119.520.0790.10755.6644.0761.20
MV-SAM3D w/o Opt.219.950.0680.09560.2349.5266.48
MV-SAM3D (Full)221.830.0250.05591.6691.1397.22
  • 다중 시야 융합은 적응 가중치를 사용했을 때 재구성 충실도 및 레이아웃 정확도에서 단일 시야 기준선보다 우수합니다.
  • 주의-엔트로피 가중은 구조와 텍스처 충실도 모두를 향상시킵니다.
  • 가시성 가중은 대칭적이거나 반복적인 텍스처에서 모호성을 해소하는 데 도움이 됩니다.
  • 물리 인식 포즈 최적화는 물체 간 충돌을 크게 줄이고 공간 정렬을 향상시킵니다.
  • 전체 MV-SAM3D 파이프라인은 다중 객체 장면에서 SAM3D 및 다른 기준선보다 더 높은 PSNR, 깊이 정확도 및 장면 일관성을 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.