QUICK REVIEW

[논문 리뷰] Point Bridge: 3D Representations for Cross Domain Policy Learning

Siddhant Haldar, Lars Johannsmeier|arXiv (Cornell University)|2026. 01. 22.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

Point Bridge는 통합된 3D 포인트 기반 표현과 VLM-가이드 키포인트 추출을 사용하여 합성 데이터로부터 제로샷 시뮬레이션-현실 정책 전달을 가능하게 하며, 선택적 실제 데이터 동시 학습 및 다중 과제 학습을 제공합니다.

ABSTRACT

Robot foundation models are beginning to deliver on the promise of generalist robotic agents, yet progress remains constrained by the scarcity of large-scale real-world manipulation datasets. Simulation and synthetic data generation offer a scalable alternative, but their usefulness is limited by the visual domain gap between simulation and reality. In this work, we present Point Bridge, a framework that leverages unified, domain-agnostic point-based representations to unlock synthetic datasets for zero-shot sim-to-real policy transfer, without explicit visual or object-level alignment. Point Bridge combines automated point-based representation extraction via Vision-Language Models (VLMs), transformer-based policy learning, and efficient inference-time pipelines to train capable real-world manipulation agents using only synthetic data. With additional co-training on small sets of real demonstrations, Point Bridge further improves performance, substantially outperforming prior vision-based sim-and-real co-training methods. It achieves up to 44% gains in zero-shot sim-to-real transfer and up to 66% with limited real data across both single-task and multitask settings. Videos of the robot are best viewed at: https://pointbridge3d.github.io/

연구 동기 및 목표

로봇 조작을 위한 대규모 실제 데이터 의존도 감소를 합성 데이터 활용으로 동기 부여.
시뮬레이션과 현실을 연결하는 통합된, 도메인에 구애받지 않는 포인트 기반 장면 표현을 개발.
최소한의 시각 또는 객체 수준 정렬로 제로샷 시뮬레이션-현실 정책 전달을 가능하게.
실제 데이터 소량과의 공동 학습(co-training)을 통해 실제 세계 성능을 향상시키는 방법을 탐구.
작업 지시문에 조건된 트랜스포머 기반 아키텍처를 통한 다중 작업 정책 학습 시연.

제안 방법

MimicGen을 사용하여 시뮬레이션에서 소수의 인간 시연을 확장해 인지된 엔드이펙터–객체 기하를 보존하는 대규모 합성 데이터셋을 생성.
VLM-가이드 파이프라인(Gemini를 객체 식별, Molmo를 로컬라이제이션, SAM2를 분할)과 Foundation Stereo의 깊이를 이용해 3D 포인트 클라우드를 형성하여 장면에서 통합 3D 키포인트를 추출.
인코딩된 포인트 클라우드 표현(PointNet 인코더)에 대해 디코더 전용 다중 작업 트랜스포머 정책(BAKU)을 학습하고, 다중 작업 제어를 가능하게 하는 선택적 언어 임베딩.
실세계 실행 중 시뮬레이션-현실 간 격차를 최소화하기 위해 VLM 필터링과 다중 깊이 감지 전략을 사용한 경량 추론 파이프라인으로 배포.
단일 작업 및 다중 작업 설정에서 전달 성능을 더욱 향상시키기 위해 제한된 실제 시연으로 공동 학습을 지원.
깊이 감지 방법, 카메라 정렬, 시점 변화에 따른 설계 선택과 강건성 분석을 제공.

Figure 1: Point Extraction Pipeline Overview. Given a scene image and task description, Gemini (Team et al. , 2023 ) identifies the task-relevant objects, which are then localized using Molmo (Deitke et al. , 2024 ) and SAM-2 (Ravi et al. , 2024 ) Subsequently, 3D keypoints on these objects are gene

실험 결과

연구 질문

RQ1통합 포인트 기반 표현이 명시적 시각 또는 객체 수준 정렬 없이 제로샷 시뮬레이션-현실 정책 전달을 가능하게 할 수 있는가?
RQ2작은 양의 실제 시연으로의 공동 학습이 순수 시뮬레이션 데이터 대비 실제 성능에 어떤 영향을 미치는가?
RQ3다중 작업, 언어 조건화 트랜스포머 정책이 다양한 작업에 걸친 확장성을 개선하는가?
RQ4정확도, 속도, 견고성 간의 최적의 균형을 제공하는 깊이 감지 전략은 무엇인가?
RQ5시뮬레이션과 현실 간의 카메라 시점 및 정렬이 전달 성능에 어떠한 영향을 미치는가?

주요 결과

Point Bridge는 단일 작업에서 최대 39%의 이득, 다중 작업 제로샷 시뮬레이션-현실 전달에서 44%의 이득을 얻었다.
작은 양의 실제 데이터로의 공동 학습은 비공동 학습 대안 대비 최대 30% 향상을 제공하고 이미지 기반 공동 학습보다 60% 이상(단일 작업 61%, 다중 작업 66%) 더 우수하다.
프레임워크는 실제 데이터 학습 시 towel, drawer, oven 작업에서 85% 성공률로 강한 실제 세계 성능을 가진 부드럽고 관절형 물체 작업도 지원한다.
Foundation Stereo 기반 깊이 추정은 도전적인 표면(반사 물체 등)에서 강 robust 3D 리핑을 제공하며 이러한 설정에서 RGB-D 깊이보다 우수하다.
시뮬레이션에서 카메라 정렬된 객체 포인트 샘플링은 시뮬레이션-현실 전달을 개선하고, 균일 샘플링보다 낫다; 시점 무작위화는 정렬 요건을 더 완화할 수 있다.
언어 조건부로 다중 작업 설정에 확장하면 단일 작업 정책과 비교해 동등하거나 더 나은 결과를 낸다.

Figure 2: Tasks. Real-world rollouts showing Point Bridge ’s ability on 6 real-world tasks.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.