Skip to main content
QUICK REVIEW

[論文レビュー] VTNet: Visual Transformer Network for Object Goal Navigation

Heming Du, Xin Yu|arXiv (Cornell University)|May 20, 2021
Multimodal Machine Learning Applications参考文献 35被引用数 36
ひとこと要約

VTNetは、視覚的トランスフォーマーを導入し、空間強化された局所オブジェクト記述子と位置-global領域記述子を統合することで空間認識的な視覚表現を学習し、ナビゲーションアクションと視覚情報を整合させる事前学習を行い、エンドツーエンドのナビゲーションポリシーに用いて、AI2-Thorの未知環境で従来手法を上回る。

ABSTRACT

Object goal navigation aims to steer an agent towards a target object based on observations of the agent. It is of pivotal importance to design effective visual representations of the observed scene in determining navigation actions. In this paper, we introduce a Visual Transformer Network (VTNet) for learning informative visual representation in navigation. VTNet is a highly effective structure that embodies two key properties for visual representations: First, the relationships among all the object instances in a scene are exploited; Second, the spatial locations of objects and image regions are emphasized so that directional navigation signals can be learned. Furthermore, we also develop a pre-training scheme to associate the visual representations with navigation signals, and thus facilitate navigation policy learning. In a nutshell, VTNet embeds object and region features with their location cues as spatial-aware descriptors and then incorporates all the encoded descriptors through attention operations to achieve informative representation for navigation. Given such visual representations, agents are able to explore the correlations between visual observations and navigation actions. For example, an agent would prioritize "turning right" over "turning left" when the visual representation emphasizes on the right side of activation map. Experiments in the artificial environment AI2-Thor demonstrate that VTNet significantly outperforms state-of-the-art methods in unseen testing environments.

研究の動機と目的

  • 情報に富んだ視覚表現を、ターゲットオブジェクトへ向けて行動をガイドする物体目標ナビゲーションのために動機づける。
  • 検出された物体と空間領域の関係を活用してナビゲーションに関連する特徴を生成するVisual Transformer(VT)を開発する。
  • 空間認識的な局所記述子(空間強化局所記述子)と位置的なグローバル記述子を導入し、効果的なアテンションベースの統合を可能にする。
  • VTを事前学習して視覚表現と方向ナビゲーション信号を関連付け、後段のポリシー学習を容易にする。
  • VTNetのエンドツーエンド学習を実証し、未知環境における最先端ベースラインより高い性能を示す。

提案手法

  • 場面内の全てのオブジェクトインスタンスをDETRを用いて検出・エンコードし、インスタンス間の関係を保持する。
  • 正規化された境界ボックス、信頼度、セマンティックラベルを連結し、ターゲット指示子とMLPを介してVTエンコーダのキーを形成することで、空間強化局所記述子を作成する。
  • グローバルな画像特徴を抽出し、チャネルを削減し、領域ごとの位置埋め込みを加えてVTデコーダのクエリを形成する。
  • Visual Transformerを用いて、空間強化局所記述子(キー/値)を位置グローバル記述子(クエリ)へアテンションさせ、ナビゲーションの最終視覚表現を生成する。
  • Dijkstra生成の指示に基づく最適なナビゲーションアクションを予測する imitation learning でVTを事前学習し、強化学習ベースのポリシー学習前の良い初期化を提供する。
  • VTで導出された表現の上でA3Cを用いてナビゲーションポリシーを学習し、事前学習後のエンドツーエンド学習を可能にする。

実験結果

リサーチクエスチョン

  • RQ1全て検出されたオブジェクトインスタンスとそれらの空間領域を推論するVisual Transformerは、物体goalナビゲーションのためにより有益な場面表現を生み出せるか?
  • RQ2空間強化局所記述子と位置グローバル記述子の組み合わせは、方向信号とナビゲーションの効率を改善するか?
  • RQ3視覚表現とナビゲーションアクションを整合させる事前学習スキームは、未知環境でより良いナビゲーションポリシーの学習を促進するか?

主な発見

MethodALL_Success_(%)ALL_SPLL≥5_Success_(%)L≥5_SPL
Random8.0 (1.3)0.036 (0.006)0.3 (0.1)0.001 (0.001)
WE33.0 (3.5)0.147 (0.018)21.4 (3.0)0.117 (0.019)
SP (Yang et al., 2018)35.1 (1.3)0.155 (0.011)22.2 (2.7)0.114 (0.016)
SAVN (Wortsman et al., 2019)40.8 (1.2)0.161 (0.005)28.7 (1.5)0.139 (0.005)
ORG (Du et al., 2020)65.3 (0.7)0.375 (0.008)54.8 (1.0)0.361 (0.009)
ORG+TPN (Du et al., 2020)69.3 (1.2)0.394 (0.010)60.7 (1.3)0.386 (0.011)
Baseline62.6 (0.9)0.364 (0.006)51.5 (1.2)0.345 (0.007)
VTNet72.2 (1.0)0.449 (0.007)63.4 (1.1)0.440 (0.009)
VTNet+TPN (Du et al., 2020)73.5 (1.3)0.440 (0.009)63.9 (1.5)0.440 (0.011)
  • VTNetは、AI2-Thorの未知テストシーンにおいて、競合ベースラインおよび従来の最先端と比較して高い成功率とSPLを達成した。
  • DETRベースのオブジェクト特徴を用いることで、グローバルコンテキストを持つトランスフォーマーベースのオブジェクト表現の利点が強調され、Faster R-CNN特徴よりも性能が改善された。
  • アブレーション実験により、VTデコーダ、グローバル特徴、および位置埋め込みが効果的なナビゲーションに不可欠であることが示された。
  • 事前学習スキームは重要であり、それがないとVTは有用なナビゲーションポリシーへ収束しない。
  • VTNetおよび VTNet+TPN は SP や SAVN のような競合手法を上回り、ナビゲーションのための視覚トランスフォーマーベースの視覚表現の有効性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。