[論文レビュー] GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields
GNFactor は、 vision-language features から蒸留された共有の3D体積表現(GNF)を用いた、言語条件付きのマルチタスク操作ポリシーを学習し、限られたデモンストレーションでの実ロボットおよびシミュレートの一般化を可能にする。
It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present $\textbf{GNFactor}$, a visual behavior cloning agent for multi-task robotic manipulation with $\textbf{G}$eneralizable $\textbf{N}$eural feature $\textbf{F}$ields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model ($\textit{e.g.}$, Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .
研究の動機と目的
- 非構造的な実世界環境における視覚観察から、言語条件付きの堅牢なマルチタスク操作を動機づける。
- 知覚と行動モジュールで共有される3Dボクセルベースの表現(GNF)を提案し、限られたデモンストレーションでの一般化を改善する。
- 基盤モデルからの視覚言語セマンティック特徴を3D表現に組み込み、シーン理解とタスク実行を強化する。
- 実世界およびRLBench全体での一般化を実証し、GNFactor を最先端ベースラインと比較する。
提案手法
- 観測を3Dボクセルグリッド(100^3)として表現し、共有ボリューメトリック特徴量 v にエンコードする。
- 拡散ベースの基盤モデルからRGBビューと視覚言語埋め込みを再構成する、Generalizable Neural Feature Field(GNF)を学習する。
- 3D特徴、固有知覚、言語埋め込みを行動決定へ写像するためにPerceiver Transformerを用いる。
- 結合目的で学習する:GNF再構成損失(RGBと拡散特徴)と、平行移動・回転・グリッパー・衝突ヘッドのクロスエントロピー行動損失。
- CLIPベースの言語特徴でタスク指示を基盤化し、タスク埋め込み T を生成してポリシーを条件付けする。
![Figure 1: Left: Three camera views used in the real robot setup to reconstruct the feature field generated by Stable Diffusion [ 5 ] . We segment the foreground feature for better illustration. Right: Three language-conditioned real robot tasks across two different kitchens.](https://ar5iv.labs.arxiv.org/html/2308.16891/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1限られたデモンストレーションで、GNFactor はシミュレートされたRLBenchのマルチタスクタスクでベースラインを上回ることができるか?
- RQ2限られたデータを与えられた場合、GNFactor は未見のシーンやタスクに対してシミュレーション内外で一般化できるか?
- RQ3ノイズのあるデータを伴うさまざまなキッチンで、GNFactor は堅牢な実ロボット操作を実行できるか?
- RQ4どの構成要素(GNF、拡散特徴、深度ガイド付きサンプリング、スキップ接続)が性能と一般化に最も影響を与えるか?
主な発見
| Method / Task | close jar | open drawer | sweep to dustpan | meat off grill | turn tap | Average |
|---|---|---|---|---|---|---|
| PerAct | 18.7±8.2 | 54.7±18.6 | 0.0±0.0 | 40.0±17.0 | 38.7±6.8 | |
| PerAct (4 Cameras) | 21.3±7.5 | 44.0±11.3 | 0.0±0.0 | 65.3±13.2 | 46.7±3.8 | |
| GNFactor | 25.3±6.8 | 76.0±5.7 | 28.0±15.0 | 57.3±18.9 | 50.7±8.2 | 50.7 |
- GNFactor はマルチタスク RLBench タスクで PerAct を上回り、見たタスクで平均1.55倍、一般化タスクで1.57倍の改善を達成。
- GNFactor はタスク全体で成功率が高く、例:RLBench のバリアント比較で open drawer が 76.0% vs 54.7%、sweep to dustpan が 28.0% vs 0.0% 。
- 2つのキッチンでの実ロボット実験で、GNFactor は平均成功率を高く、環境が変化しても性能を維持する一方、ベースラインはそうでない。
- アブレーションにより、GNF再構成、拡散特徴、深度ガイド付きサンプリング、スキップ接続がすべて性能に寄与することが示され、RGB目的関数や拡散特徴を除去すると結果が低下する。
- GNFactor を用いたビュー合成は PSNR 分析で実現可能で、Grad-CAM の視覚化はポリシーが3D空間内の対象物に注意を向けていることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。