QUICK REVIEW

[論文レビュー] RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation

Hanxiao Jiang, Binghao Huang|arXiv (Cornell University)|Feb 23, 2024

Robot Manipulation and Learning被引用数 5

ひとこと要約

RoboEXPは対話型のシーン探索を導入し、行動条件付き3Dシーングラフ（ACSG）を構築し、LMMを用いて未知環境でのロボット操作の自律探索を導く。

ABSTRACT

We introduce the novel task of interactive scene exploration, wherein robots autonomously explore environments and produce an action-conditioned scene graph (ACSG) that captures the structure of the underlying environment. The ACSG accounts for both low-level information (geometry and semantics) and high-level information (action-conditioned relationships between different entities) in the scene. To this end, we present the Robotic Exploration (RoboEXP) system, which incorporates the Large Multimodal Model (LMM) and an explicit memory design to enhance our system's capabilities. The robot reasons about what and how to explore an object, accumulating new information through the interaction process and incrementally constructing the ACSG. Leveraging the constructed ACSG, we illustrate the effectiveness and efficiency of our RoboEXP system in facilitating a wide range of real-world manipulation tasks involving rigid, articulated objects, nested objects, and deformable objects.

研究の動機と目的

空間関係と行動関連の関係の両方をエンコードする、行動条件付きの3Dシーングラフ（ACSG）を定義する。
知覚・記憶・意思決定・行動モジュールを備え、ACSGを自律的に探索・構築するRoboEXPを開発する。
記憶誘導型フレームワーク内で、行動提案と検証のために大規模多モーダルモデル（LMM）を活用する。
多様な実環境の卓上環境と下流の操作タスクに対してゼロショット一般化を実証する。

提案手法

ACSGを、オブジェクトノード（意味情報＋幾何）とアクションノード（タイプ＋プリミティブ）を持つ有向無循環グラフとして導入し、オブジェクト/オブジェクト、オブジェクト/アクション、アクション/オブジェクト、アクション/アクションの4つのエッジタイプで関係を表現する。
対話型探索をPOMDP風のプロセスとして定式化し、オブジェクトを隠しているものを明らかにするアクションを選択することで、グラフの成長・探索進捗・時間に基づく複合報酬によりACSGを逐次構築する。
知覚（Grounding-DINO、SAM-HQ、CLIP特徴）、記憶（2D-to-3D統合、ボクセルベースの高レベルACSGグラフ）、意思決定（アクション提案・検証としてGPT-4Vを使用）、行動（開く/閉じる/つかむ/手首カメラを動かすなどのヒューリスティックプリミティブ）の4モジュールを備えたRoboEXPを実装する。
時間とともにACSGを維持・更新する明示的な記憶を活用し、遮蔽や動的変化を扱い、再帰的なアクションスタック戦略を用いて多段階推論を行う。

実験結果

リサーチクエスチョン

RQ1見たことのない環境での操作タスクに必要な対話的・空間的関係を、行動条件付きのシーングラフが捉えることができるか？
RQ2ロボットが自律的に探索して完全なACSGを構築し、未探索空間を最小化できる程度はどれくらいか？
RQ3剛体・関節可動・入れ子・変形可能な物体を含む下流の操作タスクを実現する上で、ACSGの有用性はどの程度か？
RQ4記憶ベースのロボット探索ループ内で、LMMが行動提案と検証をどの程度ガイドできるか？
RQ5最小限の事前 exposureで実世界環境に一般化できるか（ゼロショット）？

主な発見

RoboEXPは、5つのタスクバリアントにおいて、5つの指標（成功/オブジェクト回復/状態回復/未探索空間/GED）でGPT-4Vベースラインを一貫して上回る。
ベースラインと比較して、オブジェクト回復と状態回復が高く、未探索空間を大幅に削減する。
記憶誘導型ACSGは、グラフパスに沿ったアクションのトポロジカル順序付けを通じてターゲットの効率的な検索を可能にする。
アクションスタックは再帰的・多段階推論（例えばマトリョーシカ人形）をサポートし、貪欲なリセット戦略によってシーンの一貫性を維持する。
剛体・関節可動・入れ子・変形可能な多様な物体を用いた実機実験は、ゼロショット一般化と堅牢な対話型探索を実証する。
GEDスコアはRoboEXPの方がベースラインより一貫して低く（より良い）、真のシーングラフへの適合度が高いことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。