QUICK REVIEW

[논문 리뷰] MV-SAM3D: Adaptive Multi-View Fusion for Layout-Aware 3D Generation

Baicheng Li, Dong Wu|arXiv (Cornell University)|2026. 03. 12.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

MV-SAM3D는 재훈련 없이 신뢰도 인식 융합과 물리학 기반 자세 최적화를 통해 레이아웃 인식 3D 생성의 다중 시야 입력으로 확장하여, 더 높은 충실도와 물리적으로 타당한 다중 객체 장면을 달성합니다.

ABSTRACT

Recent unified 3D generation models have made remarkable progress in producing high-quality 3D assets from a single image. Notably, layout-aware approaches such as SAM3D can reconstruct multiple objects while preserving their spatial arrangement, opening the door to practical scene-level 3D generation. However, current methods are limited to single-view input and cannot leverage complementary multi-view observations, while independently estimated object poses often lead to physically implausible layouts such as interpenetration and floating artifacts. We present MV-SAM3D, a training-free framework that extends layout-aware 3D generation with multi-view consistency and physical plausibility. We formulate multi-view fusion as a Multi-Diffusion process in 3D latent space and propose two adaptive weighting strategies -- attention-entropy weighting and visibility weighting -- that enable confidence-aware fusion, ensuring each viewpoint contributes according to its local observation reliability. For multi-object composition, we introduce physics-aware optimization that injects collision and contact constraints both during and after generation, yielding physically plausible object arrangements. Experiments on standard benchmarks and real-world multi-object scenes demonstrate significant improvements in reconstruction fidelity and layout plausibility, all without any additional training. Code is available at https://github.com/devinli123/MV-SAM3D.

연구 동기 및 목표

단일 시야에서 다중 시야 입력으로 레이아웃 인식 3D 생성을 재훈련 없이 확장합니다.
다중 시야 간 신뢰도 인식 융합을 가능하게 하여 환각을 줄입니다.
충돌 없는 물리적으로 타당한 물체 배치를 만들기 위한 물리 인식 제약을 도입합니다.
레이아웃 인식 생성을 포함한 다중 객체 장면 구성을 위한 완전한 파이프라인을 제공합니다.

제안 방법

다중 시야 융합을 3D 잠재공간에서의 Multi-Diffusion 프로세스로 형식화합니다.
교차 주의 엔트로피로부터 포인트별 관찰 신뢰도를 추정하기 위해 주의-엔트로피 가중치를 도입합니다.
레이 트레이싱을 통해 계산된 기하학적 가시성을 기반으로 가시성 가중치를 도입합니다.
다중 시야 간의 견고하고 신뢰도 있는 융합을 위해 가중치를 결합합니다.
생성 중 흐름 매칭 궤도에 충돌 및 접촉 물리학을 주입합니다(레이아웃 주입).
생성 후 포즈 정제는 충돌을 최소화하고 관측과의 정합성을 높이도록 물체 포즈를 최적화합니다.

실험 결과

연구 질문

RQ1재훈련 없이 레이아웃 인식 확산 기반 3D 생성기에서 다중 시야 관측을 어떻게 융합할 수 있는가?
RQ2암시적 주의 기반 및 명시적 기하 기반의 신뢰도 인식 융합이 다중 시야 3D 재구성 품질과 텍스처 충실도를 향상시킬 수 있는가?
RQ3물리 기반 레이아웃 최적화를 포함하는 것이 생성 파이프라인에서 물리적으로 타당하고 충돌 없는 다중 객체 장면을 만들어내는가?

주요 결과

방법	#시야	PSNR↑	Depth MAE↓	Depth RMSE↓	Acc@5cm↑	RelAcc@5%↑	커버리지↑
SAM3D	1	19.52	0.079	0.107	55.66	44.07	61.20
MV-SAM3D w/o Opt.	2	19.95	0.068	0.095	60.23	49.52	66.48
MV-SAM3D (Full)	2	21.83	0.025	0.055	91.66	91.13	97.22

다중 시야 융합은 적응 가중치를 사용했을 때 재구성 충실도 및 레이아웃 정확도에서 단일 시야 기준선보다 우수합니다.
주의-엔트로피 가중은 구조와 텍스처 충실도 모두를 향상시킵니다.
가시성 가중은 대칭적이거나 반복적인 텍스처에서 모호성을 해소하는 데 도움이 됩니다.
물리 인식 포즈 최적화는 물체 간 충돌을 크게 줄이고 공간 정렬을 향상시킵니다.
전체 MV-SAM3D 파이프라인은 다중 객체 장면에서 SAM3D 및 다른 기준선보다 더 높은 PSNR, 깊이 정확도 및 장면 일관성을 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.