Skip to main content
QUICK REVIEW

[論文レビュー] Point Bridge: 3D Representations for Cross Domain Policy Learning

Siddhant Haldar, Lars Johannsmeier|arXiv (Cornell University)|Jan 22, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

Point Bridge は統一された3D点群表現と VLM 誘導キー点抽出を用い、合成データからのゼロショットシム対実世界の方針移行を実現します。実データの併用学習とマルチタスク学習は任意。

ABSTRACT

Robot foundation models are beginning to deliver on the promise of generalist robotic agents, yet progress remains constrained by the scarcity of large-scale real-world manipulation datasets. Simulation and synthetic data generation offer a scalable alternative, but their usefulness is limited by the visual domain gap between simulation and reality. In this work, we present Point Bridge, a framework that leverages unified, domain-agnostic point-based representations to unlock synthetic datasets for zero-shot sim-to-real policy transfer, without explicit visual or object-level alignment. Point Bridge combines automated point-based representation extraction via Vision-Language Models (VLMs), transformer-based policy learning, and efficient inference-time pipelines to train capable real-world manipulation agents using only synthetic data. With additional co-training on small sets of real demonstrations, Point Bridge further improves performance, substantially outperforming prior vision-based sim-and-real co-training methods. It achieves up to 44% gains in zero-shot sim-to-real transfer and up to 66% with limited real data across both single-task and multitask settings. Videos of the robot are best viewed at: https://pointbridge3d.github.io/

研究の動機と目的

  • ロボット操作のための大規模な実世界データセットへの依存を合成データで削減する動機づけ。
  • シミュレーションと現実を橋渡しする統一的でドメイン非依存の点ベースのシーン表現を開発する。
  • 視覚的または物体レベルの整合性を最小限に抑えつつゼロショットのシム対実世界方針移行を実現する。
  • 限られた実データを用いた共同訓練で実世界の性能を向上させる。
  • タスク指示に条件付けられたトランスフォーマー系アーキテクチャによるマルチタスク方針学習を実証する。

提案手法

  • MimicGen を用いてシミュレーション内の人間デモの小さなセットを拡張し、エンドエフェクタと物体の相対ジオメトリを保持した大規模合成データセットを作成する。
  • VLM ガイドラインによりシーンから統一的な3D キーポイントを抽出する(物体識別に Gemini、局所化に Molmo、セグメンテーションに SAM2、深度推定に Foundation Stereo を併用)ことで3D点雲を形成する。
  • エンコード済み点群表現(PointNet エンコーダ)でデコード専用のマルチタスクトランスフォーマ方針(BAKU)を訓練し、言語埋め込みをオプションで用いてマルチタスク制御を可能にする。
  • 現実世界での実行時にはVLMフィルタリングと複数の深度 sensing 戦略を組み合わせた軽量な推論パイプラインを展開し、シム対実のギャップを最小化する。
  • 単一タスクおよびマルチタスク設定の転送性能をさらに向上させるため、限られた実デモによる共同訓練をサポートする。
  • 設計選択と深度 sensing 方法、カメラ整列、視点変動に対するロバスト性の分析を提供する。
Figure 1: Point Extraction Pipeline Overview. Given a scene image and task description, Gemini (Team et al. , 2023 ) identifies the task-relevant objects, which are then localized using Molmo (Deitke et al. , 2024 ) and SAM-2 (Ravi et al. , 2024 ) Subsequently, 3D keypoints on these objects are gene
Figure 1: Point Extraction Pipeline Overview. Given a scene image and task description, Gemini (Team et al. , 2023 ) identifies the task-relevant objects, which are then localized using Molmo (Deitke et al. , 2024 ) and SAM-2 (Ravi et al. , 2024 ) Subsequently, 3D keypoints on these objects are gene

実験結果

リサーチクエスチョン

  • RQ1統一的な点ベース表現は、視覚的または物体レベルの明示的な整合性なしにゼロショットのシム対実世界の方針移行を可能にするか?
  • RQ2少量の実デモを用いた共同訓練は、純粋にシミュレーションデータと比較して現実世界の性能にどの程度影響するか?
  • RQ3言語条件付きのマルチタスクトランスフォーマ方針は、さまざまなタスクのスケーラビリティを改善するか?
  • RQ4方針推論の精度・速度・堅牢性のバランスを最も取る深度 sensing 戦略はどれか?
  • RQ5シミュレーションと現実のカメラ視点と整列が転送性能に与える影響はどれくらいか?

主な発見

  • Point Bridge は単一タスクで最大39%、マルチタスクで最大44%のゼロショットシム対実世界転送向上を達成。
  • 実データを少量共同訓練すると、非共同訓練と比較して最大30%の改善を生み出し、画像ベースの共同訓練よりも単一タスクで61%、マルチタスクで66%上回る。
  • フレームワークはソフト・アーティキュレーテッドオブジェクトタスクにも対応し、現実世界で高い性能を示す(実データのみで学習した場合のタオル・引き出し・オーブンタスクの成功率85%)。
  • Foundation Stereo に基づく深度推定は、反射物体などの難しい表面に対して堅牢な3Dリフティングを提供し、これらの設定でRGB-Dより優れる。
  • シミュレーションと現実のカメラ整列点采样は、均一採取点より転送を改善する;視点をランダム化することで整列要件をさらに低減できる。
  • 言語条件付けを伴うマルチタスク設定へスケールさせても、単一タスク方針と同等かそれ以上の結果を得られる。
Figure 2: Tasks. Real-world rollouts showing Point Bridge ’s ability on 6 real-world tasks.
Figure 2: Tasks. Real-world rollouts showing Point Bridge ’s ability on 6 real-world tasks.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。