QUICK REVIEW

[논문 리뷰] RynnBrain: Open Embodied Foundation Models

Ronghao Dang, Jiayan Guo|arXiv (Cornell University)|2026. 02. 13.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

RynnBrain은 네 가지 핵심 기능과 사후 학습된 변형을 갖춘 오픈 소스 구현 기반 모델 패밀리(2B, 8B, 30B-A3B MoE)로, 28개의 구현 벤치마크와 20개의 일반 비전 작업에서 높은 성능을 달성합니다. 또한 물리적으로 근거가 있는 포인트 체인 추론과 확장 가능한 물리학 인식 기반 구현 지능을 위한 전용 데이터 파이프라인을 도입합니다.

ABSTRACT

Despite rapid progress in multimodal foundation models, embodied intelligence community still lacks a unified, physically grounded foundation model that integrates perception, reasoning, and planning within real-world spatial-temporal dynamics. We introduce RynnBrain, an open-source spatiotemporal foundation model for embodied intelligence. RynnBrain strengthens four core capabilities in a unified framework: comprehensive egocentric understanding, diverse spatiotemporal localization, physically grounded reasoning, and physics-aware planning. The RynnBrain family comprises three foundation model scales (2B, 8B, and 30B-A3B MoE) and four post-trained variants tailored for downstream embodied tasks (i.e., RynnBrain-Nav, RynnBrain-Plan, and RynnBrain-VLA) or complex spatial reasoning tasks (i.e., RynnBrain-CoP). In terms of extensive evaluations on 20 embodied benchmarks and 8 general vision understanding benchmarks, our RynnBrain foundation models largely outperform existing embodied foundation models by a significant margin. The post-trained model suite further substantiates two key potentials of the RynnBrain foundation model: (i) enabling physically grounded reasoning and planning, and (ii) serving as a strong pretrained backbone that can be efficiently adapted to diverse embodied tasks.

연구 동기 및 목표

물리적 환경에 명시적으로 기반을 둔 단일 시공간 기반 모델을 개발하여 지각, 추론, 계획을 지원한다.

제안 방법

시각 인코더, 시각–언어 프로젝터, LLM 백본을 갖춘 Qwen3-VL 변형을 기반으로 한 디코더-전용 비전-언어 아키텍처.
다른 계산 예산에 맞추기 위해 두 가지 Dense 모델 크기(2B, 8B)와 MoE 30B-A3B 모델을 제공.
비디오 프레임을 시간적으로 임베딩된 시각 토큰으로 변환하는 통합 시공간 표현.
경계 상자, 점, 궤적에 대한 이산 좌표 토큰을 사용하는 물리적으로 근거 있는 출력 공간.
공학적 물리 인지를 고려한 예비 학습으로 시공간 기억과 물리적 근거화를 포함하고, 사전 학습된 편향과 인간 감독을 활용한 데이터 파이프라인이 더해진다.
특수한 구현 태스크를 위한 사후 학습 변형(RynnBrain-CoP, RynnBrain-Nav, RynnBrain-Plan, RynnBrain-VLA)

실험 결과

연구 질문

RQ1구현 태스크를 위한 단일의 물리적으로 근거 있는 기반 모델에서 지각, 추론, 계획을 어떻게 통합할 수 있는가?
RQ2하나의 통합 시공간 모델이 다양한 환경과 과제에서 강인성을 향상시킬 수 있는가, 그리고 사후 학습 변형이 기능을 어떻게 확장하는가?
RQ3자아 중심 인지, 위치 추정, 계획 전반에서 구현 능력을 가장 잘 드러내는 데이터, 학습 전략, 평가 벤치마크는 무엇인가?

주요 결과

RynnBrain은 20개의 구현 벤치마크와 8개의 일반 비전 벤치마크에서 기존 구현 기반 모델을 크게 능가한다.
RynnBrain-CoP는 궤적 예측 벤치마크에서 약 7%의 향상으로 복잡한 시공간 추론 태스크를 개선한다.
RynnBrain-Nav는 모델 규모에 걸쳐 R2R 및 RxR 벤치마크에서 최첨단 결과를 달성한다.
RynnBrain-VLA는 근거 정보가 반영된 출력과 함께 강력한 조작 계획 및 VLA 실행을 보여준다.
전체 데이터와 벤치마크(20M+ samples; RynnBrain-Bench)는 구현 지능의 확장 가능하고 재현 가능한 개발을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.