QUICK REVIEW

[論文レビュー] MoCA3D: Monocular 3D Bounding Box Prediction in the Image Plane

Changwoo Jeon, Rishi Upadhyay|arXiv (Cornell University)|Mar 20, 2026

Advanced Neural Network Applications被引用数 0

ひとこと要約

MoCA3D は密集コーナー熱マップとボックス条件付きトランスフォーマーを用いて、カメラ内パラメータなしで単一画像から画像平面に投影された 3D 立方体コーナーと各コーナーの深度を推定します。

ABSTRACT

Monocular 3D object understanding has largely been cast as a 2D RoI-to-3D box lifting problem. However, emerging downstream applications require image-plane geometry (e.g., projected 3D box corners) which cannot be easily obtained without known intrinsics, a problem for object detection in the wild. We introduce MoCA3D, a Monocular, Class-Agnostic 3D model that predicts projected 3D bounding box corners and per-corner depths without requiring camera intrinsics at inference time. MoCA3D formulates pixel-space localization and depth assignment as dense prediction via corner heatmaps and depth maps. To evaluate image-plane geometric fidelity, we propose Pixel-Aligned Geometry (PAG), which directly measures image-plane corner and depth consistency. Extensive experiments demonstrate that MoCA3D achieves state-of-the-art performance, improving image-plane corner PAG by 22.8% while remaining comparable on 3D IoU, using up to 57 times fewer trainable parameters. Finally, we apply MoCA3D to downstream tasks which were previously impractical under unknown intrinsics, highlighting its utility beyond standard baseline models.

研究の動機と目的

画像平面の幾何を直接画像平面で回収する動機付け（3D パラメータリフティングのみを追わない）
推論時に既知のカメラ intrinsics がなくても単眼の 3D 幾何を回収可能にする
密な監督を介して 8 個の投影コーナーと各コーナーの深度を推定する
Pixel-Aligned Geometry (PAG) を導入して画像平面幾何の忠実度をベンチマークする
効率向上と下流の生成タスクへの適用性を示す

提案手法

入力画像から幾何認識特徴を抽出するために凍結済み DINOv3 ボディを使用
2D オラクルボックスを空間 priors とデコーダ条件として注入するボックス条件付き 3D Geometry Transformer を導入
8 コーナーのヒートマップと各コーナーの深度マップを密な予測ヘッドで推定
differentiable soft-argmax を用いてコーナー座標を抽出し、各コーナーの深度マップから深度をサンプリング
粗いヒートマップ監視、座標 Refinement、ピクセル整列深度監視を含む多項目損失で訓練
任意で MoCA3D-Cube を提供して、カメラ intrinsics を用いて投影コーナーを従来の 3D バウンディングボックスへマッピング

実験結果

リサーチクエスチョン

RQ1推論時にカメラ intrinsics がなくても単一 RGB 画像から直接画像平面の 3D ボックス幾何を回復できるか？
RQ2密なピクセル整列予測の画像平面コーナーと各コーナーの深度は、RoI からベクター回帰のベースラインと比べて画像平面の再投影忠実度を改善するか？
RQ3ボックス priors を条件とするトランスフォーマーは2D ボックス priors を活用して正確なコーナー熱マップと深度をどれほど生成できるか？
RQ4 monocular 3D 幾何の画像平面幾何忠実度を最もよく捉える評価指標は何か？
RQ5提案された幾何出力は画像平面幾何に依存する下流生成や編集タスクで活用可能か？

主な発見

MoCA3D は PAG による画像平面幾何の最先端性能を達成し、Omni3D データ全体で PAG_uv を 22.8% 向上させた
MoCA3D は 3D IoU で競争力を保ちながら、いくつかのベースラインと比べて最大 57 倍の訓練可能パラメータを削減した
PAG_uv は評価対象の六つのドメインで一貫して最も強力で、複数データセットで最高またはほぼ最高の PAG_d を示す
MoCA3D-Cube は、intrinsics が利用可能な場合に画像平面幾何出力を従来の 3D バウンディングボックスへマッピング可能で、IoU 性能を保持することが多い
アブレーションにより、ボックス priors 条件付けと密マップ/深度ヘッドが重要であり、直接の RoI 回帰は性能を著しく低下させることが示された
モデルは軽量（19.0M パラメータ）であり、CV-Bench での例ごと処理時間は 0.14 s として堅牢な画像平面幾何を提供する一方で効率的である

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。