QUICK REVIEW

[논문 리뷰] Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Yan Luo, Advaith Ravishankar|arXiv (Cornell University)|2026. 02. 10.

3D Shape Modeling and Analysis인용 수 0

한 줄 요약

한 가지 샷 없이 다섯 개 이미지-3D 기초 모델(SAM3D 포함)을 대상으로 여섯 개의 의료 데이터셋과 두 개의 자연 데이터셋에서 단일 슬라이스 3D 재구성의 깊이 모호성이 심각함을 보였고, SAM3D가 전역 형태를 포착하는 데 최상이나 보셀(복셀) 겹침은 여전히 매우 낮다.

ABSTRACT

While three-dimensional imaging is essential for clinical diagnosis, its high cost and long wait times have motivated the use of image-to-3D foundation models to infer volume from two-dimensional modalities. However, because these models are trained on natural images, their learned geometric priors struggle to transfer to inherently planar medical data. A benchmark of five state-of-the-art models (SAM3D, Hunyuan3D-2.1, Direct3D, Hi3DGen, and TripoSG) across six medical and two natural datasets revealed that voxel-based overlap remains uniformly low across all methods due to severe depth ambiguity from single-slice inputs. Despite this fundamental volumetric failure, global distance metrics indicate that SAM3D best captures topological similarity to ground-truth medical shapes, whereas alternative models are prone to oversimplification. Ultimately, these findings quantify the limits of zero-shot single-slice 3D inference, highlighting that reliable medical 3D reconstruction requires domain-specific adaptation and anatomical constraints to overcome complex medical geometries.

연구 동기 및 목표

자연 이미지에서 학습된 기하학적 사전 지식이 단일 슬라이스 3D 재구성을 위한 의료 영상으로 전이되는지 평가한다.
다양한 의료 및 자연 데이터셋에서 깊이 모호성과 보셀 수준 재구성 성능을 정량화한다.
제로샷 의료 설정에서 다섯 가지 최첨단 이미지-3D 기초 모델을 비교한다.
해부학적 구조와 병리학적 구조가 재구성 품질 및 일반화에 어떤 영향을 미치는지 분석한다.

제안 방법

각 체적 의료 스캔에서 중간 슬라이스를 추출하고 분할 마스크를 적용하여 단일 마스크된 2D 입력을 생성한다.
마스킹된 2D 입력에 대해 다섯 개의 제로샷 모델(SAM3D, Hunyuan3D-2.1, Direct3D, Hi3DGen, TripoSG)을 평가하여 3D 포인트 클라우드를 생성한다.
실측 지오메트리는 분할 마스크를 형태학적 침식(morphological erosion)을 통해 Ground-truth 포인트 클라우드로 얻는다.
공정한 비교를 위해 단위 큐브로 스케일링 후 ICP로 예측 포인트 클라우드와 Ground-truth 포인트 클라우드를 정합한다.
다섯 가지 지표를 계산한다: F1@0.01, Voxel IoU, Voxel Dice, Chamfer Distance (CD), 및 Earth Mover’s Distance (EMD).
의료 데이터셋 대 자연 데이터셋 및 관상면(coronal) 대 축면(axial) 입력 슬라이스 간의 성능 차이를 비교한다.

실험 결과

연구 질문

RQ1자연 이미지에서 학습된 깊이 선입(priors)이 제로샷 설정에서 의료 단일 슬라이스 입력에 대한 3D 재구성으로 전달될 수 있는가?
RQ2단일 2D 슬라이스에서 의료 구조를 재구성할 때 보셀 기반 겹침의 한계는 무엇인가?
RQ3SAM3D, Hunyuan3D-2.1, Direct3D, Hi3DGen, TripoSG 중 어떤 모델이 의료 단일슬라이스 재구성에서 전역 형태를 가장 잘 보존하는가?
RQ4해부학적 구조 대 병리학적 구조 및 서로 다른 해부 평면이 재구성 충실도에 어떤 영향을 미치는가?

주요 결과

모든 모델은 깊이 모호성으로 인한 보셀 기반 겹침이 일반적으로 매우 낮아 F1, IoU, Dice 점수가 모두 낮다.
SAM3D와 Hi3DGen은 다른 모델보다 보셀 기반 점수가 더 높은 경향이 있지만 개선폭은 작고 데이터셋에 따라 일관되지 않다.
거리 지표(CD 및 EMD)는 보셀 겹침이 낮아도 SAM3D가 다른 모델보다 더 나은 전역 형태 충실도를 제공함을 나타낸다.
병리학적 구조(종양)는 해부학적 구조보다 재구성이 더 좋지 않다.
자연 데이터셋(Google Scanned Objects, Animal3D)은 일반적으로 의료 데이터셋보다 거리 지표 성능이 우수하며, CD/EMD로 도메인 차이가 정량화된다.
Duke C-Spine(기하학적으로 더 단순한 구조)은 MSD Lung/Brain/Liver보다 상대적으로 높은 보셀 기반 점수를 보여 기하학적 복잡성이 난이도를 좌우함을 시사한다.
전반적으로 단일 슬라이스 제로샷 의료 3D 재구성은 근본적인 한계에 직면해 있어 도메인 적응이나 다중 시야 접근의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.