QUICK REVIEW

[논문 리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind

Huajie Tan, Enshen Zhou|arXiv (Cornell University)|2026. 01. 20.

Robot Manipulation and Learning인용 수 0

한 줄 요약

RoboBrain 2.5는 엔바디드 AI를 위한 정밀한 3D 공간 추론과 밀집한 시간적 가치 추정을 도입하여 단안 RGB 입력으로부터 깊이 인식 조작과 단계별 진행 추적을 가능하게 한다.

ABSTRACT

We introduce RoboBrain 2.5, a next-generation embodied AI foundation model that advances general perception, spatial reasoning, and temporal modeling through extensive training on high-quality spatiotemporal supervision. Building upon its predecessor, RoboBrain 2.5 introduces two major capability upgrades. Specifically, it unlocks Precise 3D Spatial Reasoning by shifting from 2D pixel-relative grounding to depth-aware coordinate prediction and absolute metric constraint comprehension, generating complete 3D manipulation traces as ordered keypoint sequences under physical constraints. Complementing this spatial precision, the model establishes Dense Temporal Value Estimation that provides dense, step-aware progress prediction and execution state understanding across varying viewpoints, producing stable feedback signals for downstream learning. Together, these upgrades extend the framework toward more physically grounded and execution-aware embodied intelligence for complex, fine-grained manipulation. The code and checkpoints are available at project website: https://superrobobrain.github.io

연구 동기 및 목표

지각과 계획에 물리적 접지(physical grounding)를 추가하여 구현형 AI의 신뢰성 격차를 해소한다.
깊이 인식 접지와 조작 추적을 통해 단안 입력에서 정밀한 3D 공간 추론을 가능하게 한다.
밀집하고 단계 인식의 시간적 가치 추정을 제공하여 폐루프 실행과 학습을 안내한다.
가려짐과 시점 변화에 견디는 견고한 다중 시야 진행 추정 성능을 달성한다.
2D/3D 공간 및 시간 벤치마크와 실제 작업에서 최첨단 성능을 시연한다.

제안 방법

카메라 내재 파라미터로 3D에 변환 가능한 분리된 (u,v,d) 표현을 통해 3D 공간 참조, 측정, 추적을 포함하는 정밀한 3D 공간 추론을 개발한다.
시각적 및 텍스트 입력으로부터 p_t = (u_t,v_t,d_t)의 순서화된 3D 점 시퀀스를 예측하는 3D 공간 추적을 공식화한다.
다중 시야 감독을 이용한 홉별 진행으로 시각 관찰로부터 실행 상태를 예측하는 밀집한 시간적 가치 추정을 도입한다.
전역 진행을 [0,1]로 유지하기 위해 3단계 데이터 큐레이션 파이프라인과 정규화된 홉 기반 진행 지표를 사용한 홉별 진행 구성을 구현한다.
다중 관점 진행 융합(incremental, forward-anchored, backward-anchored)을 사용하고 이를 평균내어 견고한 진행 추정을 얻는다.
OOD 보상 해킹을 완화하고 RL에 대한 보수적 상태 업데이트를 제공하기 위해 신뢰도 가중치를 가진 양방향 일관성 점검을 적용한다.

실험 결과

연구 질문

RQ1단안 RGB로부터 깊이 인식 접지를 학습하여 물리적으로 실행 가능한 3D 공간 궤적을 어떻게 생성할 수 있는가?
RQ2밀집하고 단계 인식의 시간적 가치 추정이 장기 구현형 작업에 대해 신뢰할 수 있는 시야-강건한 피드백을 제공할 수 있는가?
RQ3다중 관점 융합과 양방향 일관성이 가려짐이나 새로운 상태에서 시간적 가치 추정의 성능을 향상시키는가?
RQ4통합된 공간-시간 구현 지능을 지지하는 최적의 데이터, 학습 전략 및 아키텍처는 무엇인가?

주요 결과

본 모델은 2D 공간, 3D 공간, 및 시간 벤치마크에서 최첨단 성능을 달성한다(주장대로).
RoboBrain 2.5는 실제 평가에서 접촉이 많은 작업에서 제로샷 강건성을 입증한다.
깊이 인식 3D 공간 추론과 밀집 시간적 가치 추정이 보다 물리적으로 근거 있는 실행 인식 구현 조작을 가능하게 한다.
분리된 (u,v,d) 표현은 강인한 3D 접ing을 지원하며 데이터셋 간 다중 작업 학습과 호환된다.
밀집 시간적 가치 추정은 밀집한 작업 진행 신호를 제공하여 RL 가이던스와 폐루프 제어를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.