QUICK REVIEW

[論文レビュー] Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping

Adam Rashid, Satvik Sharma|arXiv (Cornell University)|Sep 14, 2023

Robot Manipulation and Learning被引用数 13

ひとこと要約

LERF-TOGOはLanguage Embedded Radiance Fieldsを用いたゼロショット視覚言語モデルを使い、タスク指向のオブジェクト部品の意味的把握分布を出力して、特定の部位を指定した把握を可能にし、タスク固有の訓練なしで把握を実現します。

ABSTRACT

Grasping objects by a specific part is often crucial for safety and for executing downstream tasks. Yet, learning-based grasp planners lack this behavior unless they are trained on specific object part data, making it a significant challenge to scale object diversity. Instead, we propose LERF-TOGO, Language Embedded Radiance Fields for Task-Oriented Grasping of Objects, which uses vision-language models zero-shot to output a grasp distribution over an object given a natural language query. To accomplish this, we first reconstruct a LERF of the scene, which distills CLIP embeddings into a multi-scale 3D language field queryable with text. However, LERF has no sense of objectness, meaning its relevancy outputs often return incomplete activations over an object which are insufficient for subsequent part queries. LERF-TOGO mitigates this lack of spatial grouping by extracting a 3D object mask via DINO features and then conditionally querying LERF on this mask to obtain a semantic distribution over the object with which to rank grasps from an off-the-shelf grasp planner. We evaluate LERF-TOGO's ability to grasp task-oriented object parts on 31 different physical objects, and find it selects grasps on the correct part in 81% of all trials and grasps successfully in 69%. See the project website at: lerftogo.github.io

研究の動機と目的

.object partsを自然言語で表現し、オブジェクト部位の訓練データなしでタスク指向の把握を可能にする。
LERFを活用してシーン中のオブジェクトと部位の3D関連性マップを生成する。
3D DINO特徴でオブジェクトマスクを改善し、空間的にグルーピングされた部位クエリを可能にする。
GraspNetのスコアと意味論的関連性を組み合わせて把握をランク付けする。
実 robot 実験で家庭用品の多様なオブジェクトに対する頑健性を示す。

提案手法

LERFでシーンを再構成して3D言語関連性場を取得する。
トップダウンのLERFレンダリング内でDINO埋め込みを洪水-fillして3Dオブジェクトマスクを抽出する。
部位クエリを用いてオブジェクトマスク上でLERFに問い合わせることで条件付き3D部位関連性マップを計算する。
仮想カメラの半球からGraspNetで把握をサンプリングし、意味論的+幾何学的スコアで再ランク付けする。
s_sem（把握内の中央値関連性）とs_geom（GraspNetスコア）をs=0.95 s_sem + 0.05 s_geomとして組み合わせる。
手首搭載カメラを使ってシーンNeRF風の表現を構築し、実物ロボットでエンドツーエンド検証を行う。

実験結果

リサーチクエスチョン

RQ1ゼロショットの視覚言語モデルは、部位特定の訓練なしで把握のためのオブジェクトと部位の正確なローカライズを実現できるか。
RQ2学習済みシーン表現内の条件付き3Dクエリは、無条件クエリと比べて部位特異的な把握ローカライズを改善するか。
RQ3意味論的関連性と幾何学的把詳細の組み合わせが、タスク指向の把握成功にどのように影響するか。
RQ4自然言語での長尾のオブジェクト-部位クエリに対してアプローチはどれだけスケールするか。
RQ5LLMを統合してタスク用のオブジェクト-部位プロンプトを生成できるか。

主な発見

方法	正しいオブジェクト	正しい部位	持ち上げ成功（Successful Lifted）
ConceptFusion [70]	77%	39%	–
LERF-TOGO	96%	82%	69%

手法は把握において正しいオブジェクト選択を96%達成。
把握の82%が正しいオブジェクト部位に着地。
生成された把握の69%が正常に持ち上げに成功。
オブジェクトマスク上での純幾何的把握は正しい部位に到達するのは18%のみであり、LERF-TOGOによる意味論的バイアスが部位ターゲティングを改善。
LERF-TOGOは多段階の意味論的クエリと3Dオブジェクトマスクの活用によって、タスク指向の把握でいくつかのベースラインを上回る。
LLM支援のプロンプトは正確なオブジェクト-部位プロンプトを高い信頼性で生成でき、いくつかの実験でタスク駆動の把握計画を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。