QUICK REVIEW

[論文レビュー] RoboBrain 2.5: Depth in Sight, Time in Mind

Huajie Tan, Enshen Zhou|arXiv (Cornell University)|Jan 20, 2026

Robot Manipulation and Learning被引用数 0

ひとこと要約

RoboBrain 2.5 は、実体型 AI のための正確な3D空間推論と密な時系列価値推定を導入し、単眼RGB入力からの深度認識を備えた操作と段階ベースの進捗追跡を可能にする。

ABSTRACT

We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io

研究の動機と目的

embodied AI における信頼性ギャップを、知覚と計画に物理的基盤を追加することで埋める。
単眼入力からの深度認識を通じた正確な3D空間推論と操作追跡を可能にする。
密な、段階ベースの時系列価値推定を提供し、クローズドループの実行と学習を導く。
視野遮蔽や視点変化を許容する堅牢な多視点進捗推定を実現する。
2D/3Dの空間・時間ベンチマークおよび実世界タスクで最先端の性能を示す。

提案手法

分離型 (u,v,d) 表現からカメラ内部パラメータと変換可能な3Dへ変換可能な、3D空間参照・測定・追跡を含む正確な3D空間推論を開発する。
視覚とテキスト入力から3D点の順序付き列 p_t = (u_t,v_t,d_t) を予測する3D空間追跡として定式化する。
視覚観察を用いて hop-wise progress で実行状態を予測する密な時系列価値推定を導入する（多視点監督付き）。
グローバル進捗を [0,1] に保つ正規化ホップベースの進捗指標と3段階のデータキュレーションパイプラインを用いたホップ-wise 進捗構築を実装する。
多視点進捗融合（増分型、前方アンカー型、後方アンカー型）を用いて頑健な進捗推定を行い、それらを平均化する。
信頼度重み付きの双方向整合性チェックを適用し、OOD報酬ハックを緩和しRLの保守的な状態更新を提供する。

実験結果

リサーチクエスチョン

RQ1深度認識を備えた基盤を単眼RGBから学習して、物理的に実現可能な3D空間追跡を生み出せるか。
RQ2密な段階ベースの時系列価値推定は、長期的な実機タスクにおいて信頼性の高い視点堅牢なフィードバックを提供できるか。
RQ3多視点融合と双方向整合性は、遮蔽や新規状態下で時系列価値推定を改善するか。
RQ4統合された空間的・時間的実体知能を支えるデータ、学習戦略、アーキテクチャは何か。

主な発見

モデルは2D空間、3D空間、および時系列ベンチマークで最先端の性能を達成する（主張通り）。
RoboBrain 2.5 は現実世界の評価下で接触が多いタスクに対してゼロショットの頑健性を示す。
深度認識を備えた3D空間推論と密な時系列価値推定は、より物理的に基づいた実行意識を持つ実体操作を可能にする。
分離型 (u,v,d) 表現は堅牢な3Dアクションの基盤となり、データセット間でのマルチタスク学習との適合性を持つ。
密な時系列価値推定はタスク進行信号を密に提供し、RL指導とクローズドループ制御を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。