[论文解读] URDF-Anything+: Autoregressive Articulated 3D Models Generation for Physical Simulation
URDF-Anything+ 能直接从单张图像生成可执行的关节化 URDF 模型,通过自回归预测部件几何和关节参数,实现 Real-Follow-Sim,策略在仿真中的学习可零-shot 转移到真实世界,无需在线适应。
Articulated objects are fundamental for robotics, simulation of physics, and interactive virtual environments. However, reconstructing them from visual input remains challenging, as it requires jointly inferring both part geometry and kinematic structure. We present, an end-to-end autoregressive framework that directly generates executable articulated object models from visual observations. Given image and object-level 3D cues, our method sequentially produces part geometries and their associated joint parameters, resulting in complete URDF models without reliance on multi-stage pipelines. The generation proceeds until the model determines that all parts have been produced, automatically inferring complete geometry and kinematics. Building on this capability, we enable a new Real-Follow-Sim paradigm, where high-fidelity digital twins constructed from visual observations allow policies trained and tested purely in simulation to transfer to real robots without online adaptation. Experiments on large-scale articulated object benchmarks and real-world robotic tasks demonstrate that outperforms prior methods in geometric reconstruction quality, joint parameter accuracy, and physical executability.
研究动机与目标
- 在机器人与仿真中展示对具备组成性与功能性的三维表示(特别是具有关节的对象)的需求与动机。
- 开发一个端到端的管线,将视觉输入直接转换为可执行的 URDF 模型,而无需多阶段处理。
- 在潜在三维空间中利用自回归扩散联合生成部件几何和关节参数。
- 引入 Real-Follow-Sim,通过数字孪生使仿真保真度与真实场景对齐。
- 在基准测试和真实机器人上展示最先进的几何、关节参数精度以及物理可执行性。
提出的方法
- 使用预训练的 DINOv3 编码器提取图像特征。
- 用 TripoSG 重建完整的对象几何以获得全局三维潜在变量 z_whole。
- 自回归地生成每个部件的几何潜在变量 z_3D^(k) 和关节表达式 J^(k),条件为图像特征和先前部件。
- 使用共享的潜在扩散 Transformer(DiT)生成部件特定的共享潜在,然后用 TripoSG 解码几何并通过轻量级 MLP 头预测关节参数。
- 合并生成的部件,重新编码合并后的几何以更新自回归上下文,并重复直到所有部件生成完成。
- 分两阶段训练:阶段1仅几何监督,阶段2 以 token 结束与关节监督共同学习几何与运动学。
- Real-Follow-Sim:从 URDF-Anything+ 输出构建数字孪生,在仿真中训练策略,并在真实机器人上执行学得的轨迹,无需在线适应。
实验结果
研究问题
- RQ1一个端到端的自回归模型能否从视觉信息生成完整的、可执行的关节化 URDF 模型?
- RQ2关节几何和关节参数的联合生成是否比以往方法更能产生物理有效且可执行的 URDF?
- RQ3Real-Follow-Sim 范式是否能够通过使仿真资产与真实几何对齐来实现零-shot 的仿真到现实策略转移?
- RQ4输入模态与连杆排序对几何重建与关节准确性有何影响?
- RQ5URDF-Anything+ 在大规模关节化基准和真实机器人任务中的几何质量、关节准确性与可执行性表现如何?
主要发现
- 在几何质量方面,URDF-Anything+ 达到同类方法中的最高水平,Parts IoU=0.879,Parts F-Score=0.721,Parts CD=0.033,Whole-object IoU=0.930,F-Score=0.742,CD=0.009。
- 在轴向、原点、限位等关节参数预测的准确性方面,URDF-Anything+ 优于前人方法:0.129 rad(Axis),0.062 m(Origin),0.225 rad(Limit)。
- URDF-Anything+ 在几何重建和关节参数准确性方面始终超越基线,产生更高物理可执行性的 URDF。
- 消融研究表明,结合图像与三维引导比仅使用图像时能改善几何与关节预测,且采用空间一致的连杆排序能提升结果。
- Real-Follow-Sim 使零-shot 的仿真到现实策略转移成为可能,真实任务(如合上笔记本盖、推动抽屉等)在 Real-Follow-Sim 下的成功率高于传统的 Sim-to-Real。
- 在真实世界实验中,URDF-Anything+ 在 Real-Follow-Sim 下优于 Articulate-Anything,并支持经过仿真训练的策略无需在线适应即可转移到真实机器人。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。