QUICK REVIEW

[논문 리뷰] TripoSR: Fast 3D Object Reconstruction from a Single Image

Dmitry Tochilkin, David Pankratz|arXiv (Cornell University)|2024. 03. 04.

Advanced Neural Network Applications인용 수 11

한 줄 요약

TripoSR은 단일 이미지에서 0.5초 미만에 고품질 질감 3D 메시를 재구성하는 빠른 피드포워드 트랜스포머 기반 모델로, A100 GPU에서 오픈소스 방법들 가운데 최첨단 결과를 달성합니다.

ABSTRACT

This technical report introduces TripoSR, a 3D reconstruction model leveraging transformer architecture for fast feed-forward 3D generation, producing 3D mesh from a single image in under 0.5 seconds. Building upon the LRM network architecture, TripoSR integrates substantial improvements in data processing, model design, and training techniques. Evaluations on public datasets show that TripoSR exhibits superior performance, both quantitatively and qualitatively, compared to other open-source alternatives. Released under the MIT license, TripoSR is intended to empower researchers, developers, and creatives with the latest advancements in 3D generative AI.

연구 동기 및 목표

연구 및 애플리케이션 배치를 위한 단일 이미지의 빠르고 정확한 3D 재구성을 촉진한다.
현장 이미지에 대한 일반화 성능을 향상시키기 위해 데이터 품질과 다양성을 향상시킨다.
메모리 효율이 높고 정밀도 높은 트립레인-NeRF 프레임워크를 견고한 학습 전략과 함께 개발한다.
MIT 라이선스 하에 모델, 코드, 데모를 오픈소스 형태로 제공한다.

제안 방법

LRM 아키텍처를 기반으로 트랜스포머 기반 이미지 인코더와 트립레인-NeRF 디코더를 구성한다.
DINOv1에서 초기화된 이미지 인코더를 사용해 RGB 입력을 3D 재구성을 위한 잠재 벡터로 투영한다.
품질과 메모리의 균형을 맞추기 위해 40 채널의 트립레인 기반 NeRF를 도입한다.
플로터를 줄이고 재구성 정밀도를 높이기 위해 마스크 손실을 도입한다.
전경 디테일을 강조하기 위해 고해상도 렌더링 패치(512x512 이미지에서 잘라낸 128x128)와 중요도 샘플링으로 학습한다.
실제 입력에 대한 강건성을 높이기 위해 고정 카메라 조건 대신 학습된 카메라 매개변수로 트립레인 프로젝션을 조건화한다.

Figure 2 : We outperform SOTA methods for 3D reconstruction while achieving fast inference time. In the figure, F-Score with threshold 0.1 is averaged over GSO [ 6 ] and OmniObject3D [ 30 ] .

실험 결과

연구 질문

RQ1빠르고 피드포워드 트랜스포머 기반 모델이 단일 이미지에서 고충실도 3D 메시를 생성할 수 있는가?
RQ2데이터 큐레이션 및 렌더링을 개선하고 목표로 하는 아키텍처 및 학습 조정을 함께 적용하면 오픈소스 방법 중에서 최첨단 재구성을 얻을 수 있는가?
RQ3표준 벤치마크에서 형태 정확도와 텍스처 품질 측면에서 TripoSR의 성능은 기존 기준치와 어떻게 비교되는가?

주요 결과

피드포워드 단일 이미지 3D 재구성 방법들 중에서 GSO 및 OmniObject3D에서 정량적 성능(CD 및 F-score) 최첨단을 달성한다.
NVIDIA A100 GPU에서 단일 이미지로 약 0.5초 만에 3D 메시를 추론한다.
두 데이터셋 모두에서 Chamfer Distance와 F-score 지표에서 One-2-3-45, ZeroShape, TGS, OpenLRM과 같은 기준선보다 우수하다.
Objaverse에서의 데이터 큐레이션, 다양한 렌더링, 트립레인 채널 최적화, 마스크 손실, 패치 기반 고해상도 감독 등 데이터 및 학습 개선을 도입하여 재구성 품질과 효율성을 함께 향상시킨다.
텍스처가 적용된 메시를 생성하며, 질적 결과가 경쟁 방법에 비해 세부 정렬 및 텍스처 충실도가 더 좋음을 보여준다.

Figure 3 : Qualitative results. We compare TripoSR output meshes to other SOTA methods on GSO and OmniObject3D (first four columns are from GSO [ 6 ] , last two are from OmniObject3D [ 30 ] ). Our reconstructed 3D shapes and textures achieve significantly higher quality and better details than previ

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.