QUICK REVIEW

[論文レビュー] $π_0$: A Vision-Language-Action Flow Model for General Robot Control

Kevin Black, Noah Brown|arXiv (Cornell University)|Oct 31, 2024

Robotic Path Planning Algorithms被引用数 7

ひとこと要約

π0は、視覚-言語モデルとフロー-matchingによる行動生成を統合した汎用ロボットポリシーであり、多様なロボットに跨ってゼロショットおよび微調整された巧緻なタスクを実行する。

ABSTRACT

Robot learning holds tremendous promise to unlock the full potential of flexible, general, and dexterous robot systems, as well as to address some of the deepest questions in artificial intelligence. However, bringing robot learning to the level of generality required for effective real-world systems faces major obstacles in terms of data, generalization, and robustness. In this paper, we discuss how generalist robot policies (i.e., robot foundation models) can address these challenges, and how we can design effective generalist robot policies for complex and highly dexterous tasks. We propose a novel flow matching architecture built on top of a pre-trained vision-language model (VLM) to inherit Internet-scale semantic knowledge. We then discuss how this model can be trained on a large and diverse dataset from multiple dexterous robot platforms, including single-arm robots, dual-arm robots, and mobile manipulators. We evaluate our model in terms of its ability to perform tasks in zero shot after pre-training, follow language instructions from people and from a high-level VLM policy, and its ability to acquire new skills via fine-tuning. Our results cover a wide variety of tasks, such as laundry folding, table cleaning, and assembling boxes.

研究の動機と目的

ロボット学習におけるデータ・一般化・頑健性の課題に対処するため、汎用的なロボットポリシー（ロボット基盤モデル）を構築する。
事前学習済みの視覚-言語モデルを介してインターネットスケールの意味知識を継承し、巧緻な制御のためのフロー-matching行動出力でそれを拡張する。
7つのロボット構成と68タスクを横断するクロスエンボディメント訓練を可能にし、ゼロショット、言語条件付き制御、および下流タスクの微調整を評価する。

提案手法

事前学習済みの視覚-言語モデルのバックボーン（PaliGemma）を使用し、ロボット固有の入力/出力に対応する専用のアクションエキスパートを追加する。
条件付きフロー・マッチングで連続的なアクション分布をモデル化し、高頻度制御（最大50 Hz）を可能にする。
事前学習データの混合（ロボット操作データとオープンソースデータ）で訓練し、タスク固有で高品質なデータによる後学習フェーズを実施する。
多様なロボット構成からデータを統合して単一モデルに集約するクロスエンボディメント訓練を採用する。
言語指示と位置覚センサ状態を視覚入力と統合し、言語条件付きおよび高レベルのポリシー支援制御を実現する。
任意で高レベルの意味的ポリシーを用いて複雑なタスクを中間の言語ガイド付きステップに分解する。

実験結果

リサーチクエスチョン

RQ1事前学習後、事前学習済みのπ0モデルはゼロショットでどれだけさまざまなタスクを実行できるか。
RQ2直接の言語入力と高レベルのポリシーまたは専門家指示を用いた場合、π0はどの程度言語命令に従うか。
RQ3下流タスクにおける巧緻な操作の従来の最先端手法とπ0を比較するとどうか。
RQ4微調整や高レベルのポリシーの指導を通じて、π0は複雑で多段階のタスクに効果的に適応できるか。

主な発見

π0は、シャツ畳み、バスティング、買い物袋詰め、トースタータスクなどでゼロショット性能がベースライン（OpenVLAやOcto）を上回る。
少ないステップ数（160k）で訓練された等価版もベースラインを上回り、π0-smallはOpenVLAおよびOctoより劣る程度が小さく、VLM初期化の利点を示す。
モデルのフロー・マッチング行動生成により、複数のロボット実装で高周波（最大50 Hz）の巧緻な制御を可能にする。
多様なロボットデータ（10,000時間超）での事前学習とタスク固有の後学習の組み合わせは、洗濯物の畳みなど長く複雑なタスクで頑強な下流性能を実現する。
クロスエンボディメント訓練により、単一モデルが7つのロボット構成を制御でき、形態が異なる場合の一般化を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。