QUICK REVIEW

[論文レビュー] GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields

Yanjie Ze, Ge Yan|arXiv (Cornell University)|Aug 31, 2023

Domain Adaptation and Few-Shot Learning被引用数 11

ひとこと要約

GNFactor は、 vision-language features から蒸留された共有の3D体積表現（GNF）を用いた、言語条件付きのマルチタスク操作ポリシーを学習し、限られたデモンストレーションでの実ロボットおよびシミュレートの一般化を可能にする。

ABSTRACT

It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present $\textbf{GNFactor}$, a visual behavior cloning agent for multi-task robotic manipulation with $\textbf{G}$eneralizable $\textbf{N}$eural feature $\textbf{F}$ields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model ($\textit{e.g.}$, Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .

研究の動機と目的

非構造的な実世界環境における視覚観察から、言語条件付きの堅牢なマルチタスク操作を動機づける。
知覚と行動モジュールで共有される3Dボクセルベースの表現（GNF）を提案し、限られたデモンストレーションでの一般化を改善する。
基盤モデルからの視覚言語セマンティック特徴を3D表現に組み込み、シーン理解とタスク実行を強化する。
実世界およびRLBench全体での一般化を実証し、GNFactor を最先端ベースラインと比較する。

提案手法

観測を3Dボクセルグリッド（100^3）として表現し、共有ボリューメトリック特徴量 v にエンコードする。
拡散ベースの基盤モデルからRGBビューと視覚言語埋め込みを再構成する、Generalizable Neural Feature Field（GNF）を学習する。
3D特徴、固有知覚、言語埋め込みを行動決定へ写像するためにPerceiver Transformerを用いる。
結合目的で学習する：GNF再構成損失（RGBと拡散特徴）と、平行移動・回転・グリッパー・衝突ヘッドのクロスエントロピー行動損失。
CLIPベースの言語特徴でタスク指示を基盤化し、タスク埋め込み T を生成してポリシーを条件付けする。

Figure 1: Left: Three camera views used in the real robot setup to reconstruct the feature field generated by Stable Diffusion [ 5 ] . We segment the foreground feature for better illustration. Right: Three language-conditioned real robot tasks across two different kitchens.

実験結果

リサーチクエスチョン

RQ1限られたデモンストレーションで、GNFactor はシミュレートされたRLBenchのマルチタスクタスクでベースラインを上回ることができるか？
RQ2限られたデータを与えられた場合、GNFactor は未見のシーンやタスクに対してシミュレーション内外で一般化できるか？
RQ3ノイズのあるデータを伴うさまざまなキッチンで、GNFactor は堅牢な実ロボット操作を実行できるか？
RQ4どの構成要素（GNF、拡散特徴、深度ガイド付きサンプリング、スキップ接続）が性能と一般化に最も影響を与えるか？

主な発見

Method / Task	close jar	open drawer	sweep to dustpan	meat off grill	turn tap	Average
PerAct	18.7±8.2	54.7±18.6	0.0±0.0	40.0±17.0	38.7±6.8
PerAct (4 Cameras)	21.3±7.5	44.0±11.3	0.0±0.0	65.3±13.2	46.7±3.8
GNFactor	25.3±6.8	76.0±5.7	28.0±15.0	57.3±18.9	50.7±8.2	50.7

GNFactor はマルチタスク RLBench タスクで PerAct を上回り、見たタスクで平均1.55倍、一般化タスクで1.57倍の改善を達成。
GNFactor はタスク全体で成功率が高く、例：RLBench のバリアント比較で open drawer が 76.0% vs 54.7%、sweep to dustpan が 28.0% vs 0.0% 。
2つのキッチンでの実ロボット実験で、GNFactor は平均成功率を高く、環境が変化しても性能を維持する一方、ベースラインはそうでない。
アブレーションにより、GNF再構成、拡散特徴、深度ガイド付きサンプリング、スキップ接続がすべて性能に寄与することが示され、RGB目的関数や拡散特徴を除去すると結果が低下する。
GNFactor を用いたビュー合成は PSNR 分析で実現可能で、Grad-CAM の視覚化はポリシーが3D空間内の対象物に注意を向けていることを示す。

Figure 2: Simulation environments and the real robot setup. We show the RGB observations for our 10 RLBench tasks in Figure (a), the sampled views for GNF in Figure (b), and the real robot setup in Figure (c).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。