Skip to main content
QUICK REVIEW

[논문 리뷰] Point Bridge: 3D Representations for Cross Domain Policy Learning

Siddhant Haldar, Lars Johannsmeier|arXiv (Cornell University)|2026. 01. 22.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

Point Bridge는 통합된 3D 포인트 기반 표현과 VLM-가이드 키포인트 추출을 사용하여 합성 데이터로부터 제로샷 시뮬레이션-현실 정책 전달을 가능하게 하며, 선택적 실제 데이터 동시 학습 및 다중 과제 학습을 제공합니다.

ABSTRACT

Robot foundation models are beginning to deliver on the promise of generalist robotic agents, yet progress remains constrained by the scarcity of large-scale real-world manipulation datasets. Simulation and synthetic data generation offer a scalable alternative, but their usefulness is limited by the visual domain gap between simulation and reality. In this work, we present Point Bridge, a framework that leverages unified, domain-agnostic point-based representations to unlock synthetic datasets for zero-shot sim-to-real policy transfer, without explicit visual or object-level alignment. Point Bridge combines automated point-based representation extraction via Vision-Language Models (VLMs), transformer-based policy learning, and efficient inference-time pipelines to train capable real-world manipulation agents using only synthetic data. With additional co-training on small sets of real demonstrations, Point Bridge further improves performance, substantially outperforming prior vision-based sim-and-real co-training methods. It achieves up to 44% gains in zero-shot sim-to-real transfer and up to 66% with limited real data across both single-task and multitask settings. Videos of the robot are best viewed at: https://pointbridge3d.github.io/

연구 동기 및 목표

  • 로봇 조작을 위한 대규모 실제 데이터 의존도 감소를 합성 데이터 활용으로 동기 부여.
  • 시뮬레이션과 현실을 연결하는 통합된, 도메인에 구애받지 않는 포인트 기반 장면 표현을 개발.
  • 최소한의 시각 또는 객체 수준 정렬로 제로샷 시뮬레이션-현실 정책 전달을 가능하게.
  • 실제 데이터 소량과의 공동 학습(co-training)을 통해 실제 세계 성능을 향상시키는 방법을 탐구.
  • 작업 지시문에 조건된 트랜스포머 기반 아키텍처를 통한 다중 작업 정책 학습 시연.

제안 방법

  • MimicGen을 사용하여 시뮬레이션에서 소수의 인간 시연을 확장해 인지된 엔드이펙터–객체 기하를 보존하는 대규모 합성 데이터셋을 생성.
  • VLM-가이드 파이프라인(Gemini를 객체 식별, Molmo를 로컬라이제이션, SAM2를 분할)과 Foundation Stereo의 깊이를 이용해 3D 포인트 클라우드를 형성하여 장면에서 통합 3D 키포인트를 추출.
  • 인코딩된 포인트 클라우드 표현(PointNet 인코더)에 대해 디코더 전용 다중 작업 트랜스포머 정책(BAKU)을 학습하고, 다중 작업 제어를 가능하게 하는 선택적 언어 임베딩.
  • 실세계 실행 중 시뮬레이션-현실 간 격차를 최소화하기 위해 VLM 필터링과 다중 깊이 감지 전략을 사용한 경량 추론 파이프라인으로 배포.
  • 단일 작업 및 다중 작업 설정에서 전달 성능을 더욱 향상시키기 위해 제한된 실제 시연으로 공동 학습을 지원.
  • 깊이 감지 방법, 카메라 정렬, 시점 변화에 따른 설계 선택과 강건성 분석을 제공.
Figure 1: Point Extraction Pipeline Overview. Given a scene image and task description, Gemini (Team et al. , 2023 ) identifies the task-relevant objects, which are then localized using Molmo (Deitke et al. , 2024 ) and SAM-2 (Ravi et al. , 2024 ) Subsequently, 3D keypoints on these objects are gene
Figure 1: Point Extraction Pipeline Overview. Given a scene image and task description, Gemini (Team et al. , 2023 ) identifies the task-relevant objects, which are then localized using Molmo (Deitke et al. , 2024 ) and SAM-2 (Ravi et al. , 2024 ) Subsequently, 3D keypoints on these objects are gene

실험 결과

연구 질문

  • RQ1통합 포인트 기반 표현이 명시적 시각 또는 객체 수준 정렬 없이 제로샷 시뮬레이션-현실 정책 전달을 가능하게 할 수 있는가?
  • RQ2작은 양의 실제 시연으로의 공동 학습이 순수 시뮬레이션 데이터 대비 실제 성능에 어떤 영향을 미치는가?
  • RQ3다중 작업, 언어 조건화 트랜스포머 정책이 다양한 작업에 걸친 확장성을 개선하는가?
  • RQ4정확도, 속도, 견고성 간의 최적의 균형을 제공하는 깊이 감지 전략은 무엇인가?
  • RQ5시뮬레이션과 현실 간의 카메라 시점 및 정렬이 전달 성능에 어떠한 영향을 미치는가?

주요 결과

  • Point Bridge는 단일 작업에서 최대 39%의 이득, 다중 작업 제로샷 시뮬레이션-현실 전달에서 44%의 이득을 얻었다.
  • 작은 양의 실제 데이터로의 공동 학습은 비공동 학습 대안 대비 최대 30% 향상을 제공하고 이미지 기반 공동 학습보다 60% 이상(단일 작업 61%, 다중 작업 66%) 더 우수하다.
  • 프레임워크는 실제 데이터 학습 시 towel, drawer, oven 작업에서 85% 성공률로 강한 실제 세계 성능을 가진 부드럽고 관절형 물체 작업도 지원한다.
  • Foundation Stereo 기반 깊이 추정은 도전적인 표면(반사 물체 등)에서 강 robust 3D 리핑을 제공하며 이러한 설정에서 RGB-D 깊이보다 우수하다.
  • 시뮬레이션에서 카메라 정렬된 객체 포인트 샘플링은 시뮬레이션-현실 전달을 개선하고, 균일 샘플링보다 낫다; 시점 무작위화는 정렬 요건을 더 완화할 수 있다.
  • 언어 조건부로 다중 작업 설정에 확장하면 단일 작업 정책과 비교해 동등하거나 더 나은 결과를 낸다.
Figure 2: Tasks. Real-world rollouts showing Point Bridge ’s ability on 6 real-world tasks.
Figure 2: Tasks. Real-world rollouts showing Point Bridge ’s ability on 6 real-world tasks.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.