QUICK REVIEW

[논문 리뷰] CAM3R: Camera-Agnostic Model for 3D Reconstruction

N. Guruprasad, Abhay Yadav|arXiv (Cornell University)|2026. 03. 23.

Advanced Vision and Imaging인용 수 0

한 줄 요약

CAM3R은 보정 없이 넓은 앵글 광학(파노라마, 어안)까지 처리하는 카메라에 독립적인, 피드포워드 3D 재구성 모델로, 두 뷰 네트워크(Ray Module and Cross-view Module)와 전역 일관성을 위한 Ray-Aware Global Alignment를 통해 작동합니다.

ABSTRACT

Recovering dense 3D geometry from unposed images remains a foundational challenge in computer vision. Current state-of-the-art models are predominantly trained on perspective datasets, which implicitly constrains them to a standard pinhole camera geometry. As a result, these models suffer from significant geometric degradation when applied to wide-angle imagery captured via non-rectilinear optics, such as fisheye or panoramic sensors. To address this, we present CAM3R, a Camera-Agnostic, feed-forward Model for 3D Reconstruction capable of processing images from wide-angle camera models without prior calibration. Our framework consists of a two-view network which is bifurcated into a Ray Module (RM) to estimate per-pixel ray directions and a Cross-view Module (CVM) to infer radial distance with confidence maps, pointmaps, and relative poses. To unify these pairwise predictions into a consistent 3D scene, we introduce a Ray-Aware Global Alignment framework for pose refinement and scale optimization while strictly preserving the predicted local geometry. Extensive experiments on various camera model datasets, including panorama, fisheye and pinhole imagery, demonstrate that CAM3R establishes a new state-of-the-art in pose estimation and reconstruction.

연구 동기 및 목표

다양한 카메라 기하학(파노라마, 어안, 핀홀)에서 보정되지 않은 위치 정보가 없는 이미지에서의 강건한 3D 재구성을 고무한다.
보정 없이 인트리스틱으로 Cross-view 융합을 가능하게 하는 per-pixel 광선 방향과 반경 거리의 신뢰도 추정을 별도로 수행하는 두 뷰 네트워크를 제안한다.
_ray-Aware Global Alignment를 도입하여 쌍별 예측을 전 세계적으로 일관된 3D 장면으로 융합하면서 지역 기하를 보존한다.
도전적인 광시야(FoV) 시나리오에서 교차 모달 일반화 및 다중 뷰 재구성을 가능하게 한다.
극단적인 렌즈 왜곡에서도 포즈 추정과 밀도 재구성에서 최첨단 결과를 제공한다.

제안 방법

공유 Ray 모듈(RM)을 갖는 두 뷰 네트워크가 구면 조화 계수로 각 픽셀의 광선 방향을 회귀한다.
Inter-view 피처 교환을 위한 이중 트랜스포머 디코더와 반력 거리 r 및 신뢰도 σ를 회귀하는 Dense Prediction Transformer 헤드를 갖춘 Cross-view Module(CVM).
Ray Module은 차수 L까지의 구면 조화를 이용해 SH 기저를 통해 이미지 I_i로부터 픽셀 단위의 광선 방향 d_i(u)를 재구성한다.
국소 포인트맵 X^{i,i}(u)=d_i(u)·r_i(u)를 가능하게 하는 광선 거리 r_i(u)와 신뢰도 σ_i(u)를 회귀하며, 뷰를 정렬하기 위해 상대 포즈 P_{2→1}를 회귀한다.
상대 포즈와 스케일은 X^{2,2}를 X^{2,1}으로 변환하는 데 사용되어 쌍별 3D 일관성을 달성한다.
회귀 손실로는 광선에 대한 비대칭 각도 손실, 포인트맵에 대한 로컬 회귀 손실, 회전( SO(3)상의 거리기하) 및 평행 이동 항의 포즈 손실을 포함한 종합 손실이 사용되며, 이를 총 손실로 결합한다.
Ray-Aware Global Alignment는 다수의 뷰에 걸친 쌍별 예측을 집계하고, 대칭 포즈 일관성과 기하학적 중첩을 이용해 불일치 엣지를 제거하며, 멀티스테이지 교대 방식으로 포즈 {P_i}와 이미지당 스케일 {s_i}를 최적화한다.

실험 결과

연구 질문

RQ1CAM3R가 보정되지 않은 위치 정보가 없는 핀홀, 어안, 파노라마 카메라에서 Dense한 3D 기하를 명시적 보정 없이 회복할 수 있는가?
RQ2광선 기반 표현이 극단적 렌즈 왜곡 하에서 Cross-view 융합과 다중 뷰 포즈 추정에 도움을 주는가?
RQ3전역적이고 광선 일관된 정렬이 무순서 다중 뷰 데이터셋에서 글로벌 3D 재구성 및 궤적 안정성을 향상시키는가?

주요 결과

CAM3R은 Cross-modality(파노라마–원근) 쌍을 포함한 다양한 카메라 모델 간 2-뷰 포즈 추정에서 최첨단 성능을 달성한다.
CO3Dv2에서 제로샷 평가에서 CAM3R은 변환 정확도(RTA@15)에서 베이스라인을 크게 능가한다.
CAM3R은 파노라마 및 어안 데이터셋에서 베이스라인이 실패하는 상황에서도 넓은 각도 기하에 대해 높은 상대 포즈 정확도를 유지한다.
Ray-Aware Global Alignment는 다중 뷰 재구성에서 드리프를 줄이고 전역 일관성을 향상시키며 기존의 핀홀 기반 정렬 방법을 능가한다.
Ablations는 이질적 학습이 일반화에 도움이 됨을 보여주며, Ray-Aware 정렬이 도전적인 데이터셋에서 ATE 드리프트를 최대 ~40%까지 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.