QUICK REVIEW

[論文レビュー] CAM3R: Camera-Agnostic Model for 3D Reconstruction

N. Guruprasad, Abhay Yadav|arXiv (Cornell University)|Mar 23, 2026

Advanced Vision and Imaging被引用数 0

ひとこと要約

CAM3R は、キャリブレーション不要で広角光学系（パノラマ、フィッシュアイ）を扱えるカメラ-アagnostic な前方伝播3D再構成モデルで、二視点ネットワーク（Ray Module と Cross-view Module）とグローバル整合性のための Ray-Aware Global Alignment を介して全局的一貫性を実現します。

ABSTRACT

Recovering dense 3D geometry from unposed images remains a foundational challenge in computer vision. Current state-of-the-art models are predominantly trained on perspective datasets, which implicitly constrains them to a standard pinhole camera geometry. As a result, these models suffer from significant geometric degradation when applied to wide-angle imagery captured via non-rectilinear optics, such as fisheye or panoramic sensors. To address this, we present CAM3R, a Camera-Agnostic, feed-forward Model for 3D Reconstruction capable of processing images from wide-angle camera models without prior calibration. Our framework consists of a two-view network which is bifurcated into a Ray Module (RM) to estimate per-pixel ray directions and a Cross-view Module (CVM) to infer radial distance with confidence maps, pointmaps, and relative poses. To unify these pairwise predictions into a consistent 3D scene, we introduce a Ray-Aware Global Alignment framework for pose refinement and scale optimization while strictly preserving the predicted local geometry. Extensive experiments on various camera model datasets, including panorama, fisheye and pinhole imagery, demonstrate that CAM3R establishes a new state-of-the-art in pose estimation and reconstruction.

研究の動機と目的

未キャリブレーション・未POSE Images からの robust な3D再構成を、さまざまなカメラ幾何に対して動機づける（パノラマ、フィッシュアイ、ピンホール）。
内部キャリブレーションなしで、各画素のレイ方向と半径距離を自信度とともに個別に推定する二視点ネットワークを提案し、視差を横断的に統合可能とする。
Ray-Aware Global Alignment を導入し、組み合わせピアの予測をグローバルに一貫した3Dシーンへ融合し、局所幾何を保存する。
困難な wide FoV シナリオにおける横断モダリティ一般化と multi-view 再構成を可能にする。
極端なレンズ歪みに対しても最先端の姿勢推定と密な再構成性能を提供する。

提案手法

共有 Ray Module (RM) を用いる二視点ネットワークは、球面調和関数係数を用いて画素ごとのレイ方向を回帰する。
Cross-view Module (CVM) は、視間特徴交換のためのデュアル・トランスフォーマー・デコーダーと、半径距離 r および信頼度 σ を回帰する Dense Prediction Transformer ヘッドを備える。
Ray Module は次数 L までの球面調和関数を使用し、SH 基底から画像 I_i を用いて per-pixel ray directions d_i(u) を再構成する。
局所的な点群 X^{i,i}(u)=d_i(u)·r_i(u) を回帰し、相対姿勢 P_{2→1} を回帰してビューを整列させる。
相対姿勢とスケールを用いて X^{2,2} を X^{2,1} に変換し、対としての3D整合性を得る。
トレーニングは、レイに対する非対称角度損、点群に対する局所回帰損、回転（SO(3) 上の測地距離）と平行移動項を含む姿勢損を用いた総損失で構成される。
Ray-Aware Global Alignment は、多数の視点にわたる対予測を集約し、対称な姿勢整合性と幾何学的重複を用いて不整合なエッジを剪定し、{P_i} および各画像スケール {s_i} を多段階の交互最適化で推定する。

実験結果

リサーチクエスチョン

RQ1CAM3R は、未キャリブレーション・未POSE の画像から、ピンホール、フィッシュアイ、パノラマカメラ間で密な3Dジオメトリを再構成できるか（明示的キャリブレーションなし）？
RQ2レイベースの表現は、極端なレンズ歪み下での視点間統合と多視点姿勢推定に役立つか？
RQ3グローバルでレイ整合性のあるアライメントは、乱序の多視点データセットにおけるグローバル3D再構成と軌跡安定性を改善できるか？

主な発見

CAM3R は diverse なカメラモデル間の二視点姿勢推定で最先端の性能を達成し、クロスモダリティ（パノラマ–透視）ペアを含む。
CO3Dv2 におけるゼロショット評価で、CAM3R は基準ベースラインを大きく上回り、翻訳精度（RTA@15）で優位。
CAM3R は広角ジオメトリに対して頑健で、パノラマおよびフィッシュアイデータセットで高い相対姿勢精度を維持し、ベースラインが失敗する場面が多い。
Ray-Aware Global Alignment はドリフトを低減し、マルチビュー再構成のグローバル一貫性を改善し、従来のピンホールベースのアライメント手法を上回る。
アブレーションにより、異種学習が一般化を改善し、Ray-Aware アライメントは難しいデータセットでATEドリフトを最大で約40%低減。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。