QUICK REVIEW

[論文レビュー] ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings

Arjun Majumdar, Gunjan Aggarwal|arXiv (Cornell University)|Jun 24, 2022

Multimodal Machine Learning Applications被引用数 41

ひとこと要約

本論文は ZSON を提案する。ゼロショットのオープンワールド ObjectNav 手法で、画像ゴールと言語を共有の CLIP ベース空間に埋め込み、ImageNav で学習、Gibson、HM3D、MP3D で評価。

ABSTRACT

We present a scalable approach for learning open-world object-goal navigation (ObjectNav) -- the task of asking a virtual robot (agent) to find any instance of an object in an unexplored environment (e.g., "find a sink"). Our approach is entirely zero-shot -- i.e., it does not require ObjectNav rewards or demonstrations of any kind. Instead, we train on the image-goal navigation (ImageNav) task, in which agents find the location where a picture (i.e., goal image) was captured. Specifically, we encode goal images into a multimodal, semantic embedding space to enable training semantic-goal navigation (SemanticNav) agents at scale in unannotated 3D environments (e.g., HM3D). After training, SemanticNav agents can be instructed to find objects described in free-form natural language (e.g., "sink", "bathroom sink", etc.) by projecting language goals into the same multimodal, semantic embedding space. As a result, our approach enables open-world ObjectNav. We extensively evaluate our agents on three ObjectNav datasets (Gibson, HM3D, and MP3D) and observe absolute improvements in success of 4.2% - 20.0% over existing zero-shot methods. For reference, these gains are similar or better than the 5% improvement in success between the Habitat 2020 and 2021 ObjectNav challenge winners. In an open-world setting, we discover that our agents can generalize to compound instructions with a room explicitly mentioned (e.g., "Find a kitchen sink") and when the target room can be inferred (e.g., "Find a sink and a stove").

研究の動機と目的

報酬やデモンストレーションなしでオープンワールド ObjectNav に対応する。
マルチモーダル CLIP 埋め込みを活用して画像ベースのゴールとテキストベースのゴールを統合。
未 annotation 3D 環境での画像ゴールナビゲーションを通じた拡張可能な SemanticNav エージェントを訓練。
言語で説明されたオブジェクトゴール（例：'sink'）へのゼロショット転送を実演。
ゼロショット性能と一般化に影響を与える要因を分析する。

提案手法

CLIP_v（画像用）と CLIP_t（テキスト用）を用いて、画像ゴールとテキストゴールを共通の意味埋め込み空間に射影する。
ResNet-50 ビジュアルエンコーダと LSTM ベースのポリシーを用い、DD-PPO とゴール到達とゴール指向の方向性を促進する報酬を用いて、未アノテーションの HM3D 環境で画像ゴールナビゲーション（ImageNav）を訓練する。
デプロイ時には、言語オブジェクトゴールを CLIP_t でエンコードし、画像ゴール埋め込みと同じ意味空間にマッチングして ObjectNav を評価する。
RL 訓練中にデータ拡張（カラージッタ、ランダム平移）を使用する。
視覚エンコーダの事前訓練（OVRL）と訓練環境の多様性がゼロショット ObjectNav の性能に与える影響を調査する。

実験結果

リサーチクエスチョン

RQ1画像ゴールから学習した意味的ゴールナビゲーションポリシーで、オープンワールド ObjectNav をゼロショット設定で達成できるか？
RQ2CLIP ベースの整合性は、画像ゴールから言語で説明されたオブジェクトゴールへの効果的な転移を可能にするか？
RQ3視覚エンコーダの事前訓練と訓練環境の多様性/数は、ゼロショット ObjectNav の性能にどのように影響するか？
RQ4複合的または部屋別の指示が与えられた場合、エージェントは部屋を意識したナビゲーションを示すか？
RQ5多様な室内環境におけるゼロショット SemanticNav の限界とバイアスは？

主な発見

ゼロショット ObjectNav の獲得: Gibson SR 31.3% (HM3D 25.5% SPL 12.6%), MP3D SR 15.3%。
ImageNav の事前訓練はゼロショット ObjectNav の SR を約 9.4%–10.4% 向上させ、より広い事前訓練とより多くの環境は顕著な向上をもたらす（例：HM3D SR 25.5%、MP3D SR 15.3%）。
従来のゼロショット手法と比較して、ZSON は Gibson ImageNav SR を 36.9% に、ObjectNav SR を 31.3% に改善（それぞれ 29.2%、11.3% から）。
HM3D では、ゼロショット SPL が最先端の監視付き手法（OVRL）に匹敵するが、ObjectNav 訓練データはなし。
定性的な結果は部屋意識を示す：指示されると 'bathroom sink' に移動し、キッチンを避け、複合ゴールの部屋推定能力を示す。
800 HM3D 環境で訓練すると Gibson のみの訓練よりゼロショット ObjectNav SR が絶対値で 6.6% 向上するが、ImageNav SR はわずか低下。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。