QUICK REVIEW

[論文レビュー] GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

Nvidia Nvidia, :|ArXiv.org|Mar 18, 2025

Robotic Locomotion and Control被引用数 3

ひとこと要約

GR00T N1は、デュアルシステムアーキテクチャとデータピラミッド学習を用いて、一般化型 humanoid ロボット向けのオープン Vision-Language-Action 基盤モデルを提案し、クロス embodiment 操作を可能にする。GR-1 人型ロボットで実ロボット展開を実証。

ABSTRACT

General-purpose robots need a versatile body and an intelligent mind. Recent advancements in humanoid robots have shown great promise as a hardware platform for building generalist autonomy in the human world. A robot foundation model, trained on massive and diverse data sources, is essential for enabling the robots to reason about novel situations, robustly handle real-world variability, and rapidly learn new tasks. To this end, we introduce GR00T N1, an open foundation model for humanoid robots. GR00T N1 is a Vision-Language-Action (VLA) model with a dual-system architecture. The vision-language module (System 2) interprets the environment through vision and language instructions. The subsequent diffusion transformer module (System 1) generates fluid motor actions in real time. Both modules are tightly coupled and jointly trained end-to-end. We train GR00T N1 with a heterogeneous mixture of real-robot trajectories, human videos, and synthetically generated datasets. We show that our generalist robot model GR00T N1 outperforms the state-of-the-art imitation learning baselines on standard simulation benchmarks across multiple robot embodiments. Furthermore, we deploy our model on the Fourier GR-1 humanoid robot for language-conditioned bimanual manipulation tasks, achieving strong performance with high data efficiency.

研究の動機と目的

人間環境で多様な実体プラットフォーム上で動作可能な一般化型ロボット基盤モデルの開発を動機づける。
Cross-embodiment データ断片化を克服しロボット学習をスケールするデータピラミッド訓練戦略を提案する。
リアルタイム操作の推論と生成を統合するデュアルシステム VLA アーキテクチャを導入する。
単腕、両手、ヒューマノイド実装におけるエンドツーエンド訓練とゼロショット/ few-shot generalization を示す。
標準的なシミュレーションベンチマークと Fourier GR-1 ロボットでの実世界展開における性能を評価する。

提案手法

デュアルシステムアーキテクチャを持つ Vision-Language-Action (VLA) モデルを提案する：System 2 は事前訓練済み Vision-Language Model、System 1 はリアルタイムでモータ動作を生成する Diffusion Transformer。
状態、画像、言語トークンに条件付けられたデノイズされた動作予測を生み出すため、拡散トランスフォーマー内の action flow matching を用いる。
現実ロボット軌跡、人間ビデオ、合成データ、ニューラル生成軌道を組み合わせた異種データピラミッド上での訓練により、実装に grounded した学習を行う。
VQ-VAEと逆動力学モデルを用いて action-less データに潜在アクションを付与し、データセット間で統一された訓練ターゲットを可能にする。
Embodiment-aware な状態・動作エンコーダを用いて異なるロボット形態を扱い、Eagle-2 Vision-Language 埋め込みを diffusion デコーダに統合する。
実データセット、合成データセット（シミュレーションとニューラルトラジェクトリ）、人間ビデオデータセットの3つのデータ源を活用して前訓練を行い、その後特定の embodiment に対して後訓練を実施する。

実験結果

リサーチクエスチョン

RQ1GR00T N1 は単一の重みセットから複数のロボット embodiment に一般化できるか。
RQ2異種データピラミッドで訓練することはクロスエンボディメント一般化とデータ効率を改善するか。
RQ3デュアルシステム VLA アーキテクチャは視覚・言語入力の解釈の頑健性を保ちながら高頻度のモータ動作生成を達成できるか。
RQ4潜在アクションと逆動力学ラベリングが action-less データからの学習に与える影響は何か。
RQ5GR00T N1 は標準的なシミュレーションベンチマークとデ dexterous hands を用いた実世界操作タスクでどのような性能を示すか。

主な発見

GR00T N1 は複数のロボット embodiment に対して、標準的なシミュレーションベンチマーク上で最先端の模倣学習ベースラインを上回る。
GR00T-N1-2B モデルは推論時に 120 Hz のリアルタイム・高頻度動作生成を実現し、16ステップの動作チャンクを使用。
多様なデータピラミッド上での事前訓練と joint エンドツーエンド訓練により、単腕からヒューマノイドの構成まで効果的なクロスエンボディメント操作を実現。
単一 embodiment での後訓練により、現実ロボットタスクのデータ効率の高い学習で堅牢な性能を発揮。
言語条件付きの両手操作タスクに対する GR-1 ヒューマノイドロボットでの実世界性能が高い。
著者らは GR00T-N1-2B チェックポイント、訓練データ、シミュレーションベンチマークを GitHub と HuggingFace で公開する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。