QUICK REVIEW

[论文解读] MoCA3D: Monocular 3D Bounding Box Prediction in the Image Plane

Changwoo Jeon, Rishi Upadhyay|arXiv (Cornell University)|Mar 20, 2026

Advanced Neural Network Applications被引用 0

一句话总结

MoCA3D 在不需要相机内参的情况下，使用密集角点热力图和盒子条件变换器，从单张图像预测图像平面投影的 3D 矩形角点及每角深度，提升图像平面几何。

ABSTRACT

Monocular 3D object understanding has largely been cast as a 2D RoI-to-3D box lifting problem. However, emerging downstream applications require image-plane geometry (e.g., projected 3D box corners) which cannot be easily obtained without known intrinsics, a problem for object detection in the wild. We introduce MoCA3D, a Monocular, Class-Agnostic 3D model that predicts projected 3D bounding box corners and per-corner depths without requiring camera intrinsics at inference time. MoCA3D formulates pixel-space localization and depth assignment as dense prediction via corner heatmaps and depth maps. To evaluate image-plane geometric fidelity, we propose Pixel-Aligned Geometry (PAG), which directly measures image-plane corner and depth consistency. Extensive experiments demonstrate that MoCA3D achieves state-of-the-art performance, improving image-plane corner PAG by 22.8% while remaining comparable on 3D IoU, using up to 57 times fewer trainable parameters. Finally, we apply MoCA3D to downstream tasks which were previously impractical under unknown intrinsics, highlighting its utility beyond standard baseline models.

研究动机与目标

直接在图像平面上实现几何重建的动机与目标，而不仅仅是 3D 参数提升。
在推理时无需已知相机内参即可实现单目几何重建。
通过密集监督预测八个投影的 3D 盒角点及每角深度。
引入 Pixel-Aligned Geometry (PAG) 以基准测试图像平面几何保真度。
Demonstrate 效率提升及在下游生成任务中的适用性。

提出的方法

使用冻结的 DINOv3 主干从输入图像提取几何感知特征。
引入一个盒子条件的 3D Geometry Transformer，将二维 oracle 盒子作为空间先验和解码条件注入。
在密集预测头中预测八个角点热力图和每角深度图。
通过可微分的 soft-argmax 提取角点坐标，并从每角深度图中采样深度。
通过包含粗热力图监督、坐标细化和像素对齐深度监督的多项式损失进行训练。
可选提供 MoCA3D-Cube，在可得内参时将投影角点映射到传统的 3D 围栏框，通常保持 IoU 性能。

实验结果

研究问题

RQ1在推理时，是否可以仅通过单张 RGB 图像在不使用相机内参的情况下直接恢复图像平面的几何？
RQ2与 RoI 到向量回归基线相比，密集、像素对齐的图像平面角点和每角深度预测是否提升图像平面再投影保真度？
RQ3盒子条件变换器在利用二维盒子先验以产生准确的角点热力图与深度方面有多强？
RQ4哪些评估指标最能反映单目几何在图像平面上的保真度？
RQ5所提几何输出是否可在依赖图像平面几何的下游生成或编辑任务中发挥作用？

主要发现

MoCA3D 在图像平面几何方面达到最先进的性能，以 PAG 衡量，在 Omni3D 数据集上整体提升 PAG_uv 22.8%。
MoCA3D 在 3D IoU 上保持竞争力，同时相比某些基线具有最多 57 倍的可训练参数减少。
PAG_uv 在六个领域中始终是评估方法中最强者，在若干数据集上获得最佳或接近最佳的 PAG_d 结果。
MoCA3D-Cube 展示其图像平面几何输出在具有内参时可映射到传统 3D 界限框，且常保持 IoU 性能。
消融研究表明盒子先验条件化和密集热力图/深度头对性能至关重要；直接 RoI 回归会显著退化性能。
该模型参数量轻量级（19.0M 参数），在 CV-Bench 上推理时间约 0.14 s/样本，同时提供稳健的图像平面几何。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。