[論文レビュー] Open-World Object Manipulation using Pre-trained Vision-Language Models
MOO はオープンボキャブラリビジョン-ランゲージモデルを活用して、視覚的観察に言語指示を grounding し、ロボットが今まで見たことのない物体を操作し、物体、背景、モダリティを跨って一般化できる。
For robots to follow instructions from people, they must be able to connect the rich semantic information in human vocabulary, e.g. "can you get me the pink stuffed whale?" to their sensory observations and actions. This brings up a notably difficult challenge for robots: while robot learning approaches allow robots to learn many different behaviors from first-hand experience, it is impractical for robots to have first-hand experiences that span all of this semantic information. We would like a robot's policy to be able to perceive and pick up the pink stuffed whale, even if it has never seen any data interacting with a stuffed whale before. Fortunately, static data on the internet has vast semantic information, and this information is captured in pre-trained vision-language models. In this paper, we study whether we can interface robot policies with these pre-trained models, with the aim of allowing robots to complete instructions involving object categories that the robot has never seen first-hand. We develop a simple approach, which we call Manipulation of Open-World Objects (MOO), which leverages a pre-trained vision-language model to extract object-identifying information from the language command and image, and conditions the robot policy on the current image, the instruction, and the extracted object information. In a variety of experiments on a real mobile manipulator, we find that MOO generalizes zero-shot to a wide range of novel object categories and environments. In addition, we show how MOO generalizes to other, non-language-based input modalities to specify the object of interest such as finger pointing, and how it can be further extended to enable open-world navigation and manipulation. The project's website and evaluation videos can be found at https://robot-moo.github.io/
研究の動機と目的
- 自然言語で記述された新規物体カテゴリーの操作を、視覚的観察への grounding によって実現。
- frozen pre-trained vision-language models を活用して物体を局所化し、物体の位置と指示で学習ポリシーを条件付け。
- open-vocabulary detectors を用いた unseen objects/ environments へのゼロショット generalization を実証。
- 非言語入力モダリティ(例: 指差し、画像)への頑健性と open-vocabulary navigation との統合を示す。
提案手法
- frozen vision-language model (OWL-ViT) を用いて current image で指示に記載された物体を局在化。
- 物体情報を単一ピクセル位置(予測バウンディングボックスの中心)または画像入力に追加されたマルチチャンネルの物体マスクとして表現。
- 現在の画像、指示、物体局在マスクを用いて language-conditioned policy(RT-1 backbone)を条件付け。
- VLM を固定したまま、106 個の物体のデモンストレーションを用いた模倣学習で end-to-end 学習。
- 1,472 回の実機モバイルマニピュレーターで評価、5 つのスキル(ピック、近くへ移動、ノック、直立配置、投入配置)。
- open-vocabulary navigation(CoW)と統合して、オブザーバブルな入力モダリティ(指差し、画像、GUI マスク など)を検討し、CoW-MOO を形成。
実験結果
リサーチクエスチョン
- RQ1MOO は追加デモなしに言語で記述された新規物体カテゴリの操作ポリシーを一般化できるか。
- RQ2事前学習済みの vision-language model による grounding は背景、質感、新しい環境への頑健性にどのように影響するか。
- RQ3非言語モダリティは grounding の対象物を効果的に指定できるか。
- RQ4訓練データ量、物体の多様性、モデル規模が unseen objects への generalization に与える影響は。
- RQ5オープンワールド navigation をオープンワールド操作と組み合わせてエンドツーエンドのタスクを達成できるか。
主な発見
- MOO は unseen objects への generalization を大幅に改善し、特に picking スキルで RT-1 や VIMA 風ベンチマークより優位である。
- MOO は新しい環境、挑戦的な質感、追加のオープンワールド物体に対して頑健性を保ち、これらの設定でベースラインを上回る。
- VLM ローカリゼーションから得られた物体表現は、テキストプロンプト、キャプション、ターゲット画像、または人間提供マスクなど、さまざまなモダリティを介して grounding に成功させることができる。
- アブレーションにより unseen-object generalization は訓練データの物体多様性に敏感であり、モデルのサイズが大きいほど性能が向上する一方で、サイズを小さくすると利得が減衄する。
- CoW を open-vocabulary navigation に統合した場合、MOO は open-world navigation と manipulation を統合した一貫したシステムをサポートする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。