QUICK REVIEW

[论文解读] Point Bridge: 3D Representations for Cross Domain Policy Learning

Siddhant Haldar, Lars Johannsmeier|arXiv (Cornell University)|Jan 22, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

Point Bridge 使用统一的三维点表示和 VLM 引导的关键点提取，以实现从合成数据到零样本仿真到现实的策略迁移，可选的真实数据共训练和多任务学习。

ABSTRACT

Robot foundation models are beginning to deliver on the promise of generalist robotic agents, yet progress remains constrained by the scarcity of large-scale real-world manipulation datasets. Simulation and synthetic data generation offer a scalable alternative, but their usefulness is limited by the visual domain gap between simulation and reality. In this work, we present Point Bridge, a framework that leverages unified, domain-agnostic point-based representations to unlock synthetic datasets for zero-shot sim-to-real policy transfer, without explicit visual or object-level alignment. Point Bridge combines automated point-based representation extraction via Vision-Language Models (VLMs), transformer-based policy learning, and efficient inference-time pipelines to train capable real-world manipulation agents using only synthetic data. With additional co-training on small sets of real demonstrations, Point Bridge further improves performance, substantially outperforming prior vision-based sim-and-real co-training methods. It achieves up to 44% gains in zero-shot sim-to-real transfer and up to 66% with limited real data across both single-task and multitask settings. Videos of the robot are best viewed at: https://pointbridge3d.github.io/

研究动机与目标

通过利用合成数据，推动降低对大量真实世界数据在机器人操作中的依赖。
开发统一的、领域无关的基于点的场景表示，连接仿真与现实。
在最小的视觉或对象级对齐条件下实现零样本的仿真到现实策略转移。
探索使用少量真实数据进行共训练，以提升真实世界的性能。
通过以任务指令为条件的变换器架构实现多任务策略学习。

提出的方法

在仿真中将少量人类示例扩展为大规模的合成数据集，使用 MimicGen，保持末端执行器-对象几何的相对关系。
通过VLM引导的管线从场景中提取统一的三维关键点（对象识别使用 Gemini，定位使用 Molmo，分割使用 SAM2），再结合 Foundation Stereo 的深度信息形成三维点云。
在编码的点云表示（PointNet 编码器）上训练仅解码器的多任务变换器策略（BAKU），可选的语言嵌入用于实现多任务控制。
使用轻量级推理管线进行部署，结合 VLM 过滤和多种深度感知策略，尽量缩小仿真到现实的差距。
在有限真实示例下进行共训练，进一步提升单任务与多任务设定的迁移性能。
提供设计选择的分析，以及在深度感知方法、相机对齐和视点变化下的鲁棒性分析。

Figure 1: Point Extraction Pipeline Overview. Given a scene image and task description, Gemini (Team et al. , 2023 ) identifies the task-relevant objects, which are then localized using Molmo (Deitke et al. , 2024 ) and SAM-2 (Ravi et al. , 2024 ) Subsequently, 3D keypoints on these objects are gene

实验结果

研究问题

RQ1统一的点表示是否能够实现零样本仿真到现实的策略转移，而无需显式的视觉或对象级对齐？
RQ2用少量真实示例进行共训练对真实世界性能的提升，与仅使用仿真数据相比有多大差异？
RQ3多任务、语言条件的变换器策略是否提升在多样任务上的可扩展性？
RQ4哪种深度感知策略在精度、速度和鲁棒性之间取得最佳平衡以用于策略推理？
RQ5仿真与现实之间的相机视点和对齐如何影响迁移性能？

主要发现

Point Bridge 在单任务零样本仿真到现实转移中较基线提升高达 39%，在多任务情境中提升高达 44%。
用少量真实数据进行共训练相对于未共训练的对比对象，提升最高达 30%，且在单任务与多任务情境下分别比基于图像的共训练高出 61%（单任务）和 66%（多任务）。
该框架对软体与关节对象任务表现出强 Real-world 性能（仅用真实数据训练时，毛巾、抽屉、烤箱任务成功率达到 85%）。
Foundation Stereo 的深度估计在对反光等挑战性表面的3D提升方面表现稳定，在这些场景中优于 RGB-D 深度。
仿真中对齐的对象点采样相较于均匀采样点提升了仿真到现实的转移；对视点进行随机化可进一步减轻对齐要求。
该方法扩展到带语言条件的多任务设置时，结果与单任务策略相当甚至更好。

Figure 2: Tasks. Real-world rollouts showing Point Bridge ’s ability on 6 real-world tasks.

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。