Skip to main content
QUICK REVIEW

[論文レビュー] OVRL-V2: A simple state-of-art baseline for ImageNav and ObjectNav

Karmesh Yadav, Arjun Majumdar|arXiv (Cornell University)|Mar 14, 2023
Domain Adaptation and Few-Shot Learning被引用数 14
ひとこと要約

OVRL-v2 は、タスク固有モジュールなしで ImageNav と競合的な ObjectNav 性能を達成する単一の汎用 ViT+圧縮層+LSTM アーキテクチャを示し、最先端の結果を達成する。MAE による事前学習は視覚ナビゲーションの ViTs の正のスケーリングを可能にする。

ABSTRACT

We present a single neural network architecture composed of task-agnostic components (ViTs, convolutions, and LSTMs) that achieves state-of-art results on both the ImageNav ("go to location in ") and ObjectNav ("find a chair") tasks without any task-specific modules like object detection, segmentation, mapping, or planning modules. Such general-purpose methods offer advantages of simplicity in design, positive scaling with available compute, and versatile applicability to multiple tasks. Our work builds upon the recent success of self-supervised learning (SSL) for pre-training vision transformers (ViT). However, while the training recipes for convolutional networks are mature and robust, the recipes for ViTs are contingent and brittle, and in the case of ViTs for visual navigation, yet to be fully discovered. Specifically, we find that vanilla ViTs do not outperform ResNets on visual navigation. We propose the use of a compression layer operating over ViT patch representations to preserve spatial information along with policy training improvements. These improvements allow us to demonstrate positive scaling laws for the first time in visual navigation tasks. Consequently, our model advances state-of-the-art performance on ImageNav from 54.2% to 82.0% success and performs competitively against concurrent state-of-art on ObjectNav with success rate of 64.0% vs. 65.0%. Overall, this work does not present a fundamentally new approach, but rather recommendations for training a general-purpose architecture that achieves state-of-art performance today and could serve as a strong baseline for future methods.

研究の動機と目的

  • タスク非依存のニューラルアーキテクチャが、マッピング・検出・セグメンテーションモジュールを用いずに ImageNav および ObjectNav で最先端結果を達成できることを示す。
  • ViT ベースの視覚ナビゲーションにおいて、圧縮層を介して空間構造を保持する役割を調査する。
  • ViT ベースのナビゲーション性能に対する自己教師付き事前学習(MAE)とモデルスケーリングの影響を探る。
  • ナビゲーションタスクにおける報酬設計の問題に対処し、ハッキングを防ぎポリシー学習を改善する。

提案手法

  • 視覚エンコーダとして ViT を用い、空間情報を保持するために圧縮層を追加。
  • 連結された視覚情報・ゴール・GPS/コンパス埋め込みを取り込み行動を生成するリカレント LSTM ポリシーを組み込む。
  • ImageNav を強化学習(DD-PPO)で、ObjectNav を人間のデモからの行動模倣学習で訓練。
  • In-domain HM3D/Gibson データ上で MAE による ViT エンコーダの事前学習を行い、エンドツーエンドでファインチューニング。
  • 報酬の形状化式(Eq. 3)を導入し、角度ベースの形状化とポテンシャルベースの補正で報酬ハッキングを緩和。
  • 事前学習データ、SSL 手法、学習率について ViT 変種(CLS トークン、Global Avg Pool、Compression Layer)を比較し、アブレーションを実施。
Figure 1 : OVRL-v2 is a model-free navigator with a ViT+LSTM architecture that achieves SoTA results on ImageNav and ObjectNav without mapping, detectors, or segmentors of any kind.
Figure 1 : OVRL-v2 is a model-free navigator with a ViT+LSTM architecture that achieves SoTA results on ImageNav and ObjectNav without mapping, detectors, or segmentors of any kind.

実験結果

リサーチクエスチョン

  • RQ1ViT ベースのエージェントをゼロから訓練した場合、ImageNav および ObjectNav で ResNet ベースラインを上回るか。
  • RQ2空間構造を保持する圧縮層は ViT ベースのナビゲーション性能を向上させるか。
  • RQ3SSL 事前学習は ViT ベースのナビゲータに正のスケーリングを可能にするか。
  • RQ4提案された報酬設計は従来の報酬で観測された報酬ハッキングを防げるか。
  • RQ5ImageNav における OV RL-v2 は従来の SoTA 手法とどう比較され、これらの利得は ObjectNav へ転移可能か。

主な発見

方法カメラSPL (↑)SR (↑)
ZER [1]121.629.2
ZSON [22]128.036.9
CRL [14]110.220.4
OVRL [43]127.054.2
Mem-Aug Nav [24]456.069.0
CLIP ViT- Base (baseline)137.451.7
ViT- Small baseline137.167.4
OVRL-v2 (ours)158.782.0
  • ViTs はスクラッチから訓練すると、圧縮層を用いて空間情報を保持しない場合は ResNet ベースラインを下回る。
  • ViT のパッチ表現上に圧縮層を設けると、CLS および Global Avg Pool のベースラインと比較して ImageNav の SPL と SR が大幅に改善される。
  • MAE 事前学習は正のスケーリングを可能にする; ViT-Base with MAE は MAE なしの ViT-Small より SR と SPL が優れており、MAE を用いた ViT-Base へスケールすると最良の ImageNav 結果(SR 82.0%、SPL 58.7%)を得る。
  • 補正された報酬(Eq. 3)は報酬ハッキングを緩和し、ZER ベースの報酬よりも高い SPL と SR をもたらす。
  • ImageNav において、OVRL-v2 は 82.0% SR と 58.7% SPL(1 Cam)を達成し、従来の単一カメラ手法を上回り、多カメラまたはパノラマのベースラインに近い。ObjectNav では OVRL-v2 は 64.0% SR と 29.0% SPL を達成し、最近の手法と競合的である。
  • イン-domain データ(MAE/Data2Vec)と適切な SSL 選択(Data2Vec/MAE)は、このタスクにおいて CLIP ベースラインを上回る。
Figure 2 : Visual Navigation Tasks. In ImageNav [ 51 ] the goal is ‘described’ by an image and in ObjectNav [ 5 ] the goal is described in words (e.g., ‘fridge’ ). We demonstrate the effectiveness of our ‘model-free navigator’ ( i.e . , agent) on both tasks.
Figure 2 : Visual Navigation Tasks. In ImageNav [ 51 ] the goal is ‘described’ by an image and in ObjectNav [ 5 ] the goal is described in words (e.g., ‘fridge’ ). We demonstrate the effectiveness of our ‘model-free navigator’ ( i.e . , agent) on both tasks.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。