Skip to main content
QUICK REVIEW

[論文レビュー] Visual Semantic Navigation using Scene Priors

Wei Yang, Xiaolong Wang|arXiv (Cornell University)|Oct 15, 2018
Multimodal Machine Learning Applications参考文献 33被引用数 37
ひとこと要約

本論文は、視覚的意味的ナビゲーションを向上させるために、意味的および機能的シーン事前知識を統合するグラフ畳み込みネットワーク(GCN)拡張型の強化学習フレームワークを提案する。オブジェクト配置に関する事前知識(例:マグカップはコーヒーマシンの近くに置かれる)を知識グラフにエンコードすることで、未観測環境や新規オブジェクトに対しても一般化が向上し、成功確率およびSPLの大幅な向上を達成する。特に、未学習のシーンやオブジェクトを含むゼロショット設定において顕著な改善が見られる。

ABSTRACT

How do humans navigate to target objects in novel scenes? Do we use the semantic/functional priors we have built over years to efficiently search and navigate? For example, to search for mugs, we search cabinets near the coffee machine and for fruits we try the fridge. In this work, we focus on incorporating semantic priors in the task of semantic navigation. We propose to use Graph Convolutional Networks for incorporating the prior knowledge into a deep reinforcement learning framework. The agent uses the features from the knowledge graph to predict the actions. For evaluation, we use the AI2-THOR framework. Our experiments show how semantic knowledge improves performance significantly. More importantly, we show improvement in generalization to unseen scenes and/or objects. The supplementary video can be accessed at the following link: https://youtu.be/otKjuO805dE .

研究の動機と目的

  • 未知の環境における視覚的意味的ナビゲーションを、オブジェクト配置に関する学習済みの意味的および機能的事前知識を活用することで改善すること。
  • 意味的関係(例:「マンゴーは果物なので冷蔵庫にしまう」)を用いて、訓練時に一度も見なかった新規オブジェクトカテゴリに対してもエージェントが一般化できるようにすること。
  • 一般的なオブジェクト-シーン構成に関する事前知識を活用することで、探索時間の短縮を図り、ナビゲーションの効率を向上させること。
  • 未学習のシーンおよび/または新規のターゲットオブジェクトを含むゼロショット設定におけるモデルのロバスト性を評価すること。
  • 構造化された知識グラフが、複雑で現実的な環境において、標準的な強化学習ベースラインを上回る一般化を実現することを示すこと。

提案手法

  • 大規模なシーン理解データセットから得た意味的および機能的事前知識(例:「マグカップはコーヒーマシンと併用される」「果物は冷蔵庫に保管される」)を、知識グラフにエンコードする。
  • グラフ畳み込みネットワーク(GCNs)を用いて、現在の視覚的観測と事前状態に基づき、事前知識を更新・伝搬する。
  • アクタ・クリティック強化学習フレームワークに、知識グラフからの特徴量およびオブジェクトの可視性信号を追加する。
  • 推論中にリアルタイムの観測と事前知識を統合することで、知識グラフを動的に更新し、文脈に応じた推論を可能にする。
  • 写真のようにリアルな、カスタマイズ可能な屋内シーンと多様なオブジェクト配置を備えたAI2-THOR環境で、モデルをエンドツーエンドに訓練する。
  • エージェントがターゲットに到着したことを検出する必要がある現実的なナビゲーションを模倣するための「停止」アクションを導入し、タスクの難易度を向上させる。

実験結果

リサーチクエスチョン

  • RQ1機能的関係(例:マグカップはコーヒーマシンの近くに置かれる)といった意味的事前知識は、未観測環境におけるナビゲーション性能を向上させることができるか?
  • RQ2意味的関係のみを用いて、一度も見たことのない新規オブジェクトカテゴリ(例:マンゴー)に対し、エージェントがどの程度一般化できるか?
  • RQ3構造化された知識グラフを統合することで、未学習のシーンおよび新規オブジェクトを含むゼロショット設定における一般化性能にどのような影響を与えるか?
  • RQ4リアルタイムで知識を更新するGCNの使用は、標準的な強化学習エージェントと比較して、より優れた探索および計画を実現するか?
  • RQ5性能は、知識グラフの品質および構造(例:ノードや関係の削除)に対してどの程度感受性を示すか?

主な発見

  • 提案手法は、未学習のシーンと新規オブジェクトを含む設定で、成功確率38.5%、SPL 62.5%を達成し、A3Cベースライン(成功24.4%、SPL 56.5%)およびランダムベースラインを顕著に上回る。
  • 困難なゼロショット設定(未学習のシーンおよび新規ターゲットオブジェクト)においても、30.4%の成功率と64.9%のSPLを達成し、学習データを超える強力な一般化性能を示している。
  • 知識グラフの構成要素を削除すると性能が低下する:オブジェクトノードの80%を削除するとSPLは38.5から31.1に低下し、関係の80%を削除すると31.5に低下する。
  • 完全結合型またはランダムなグラフは、構造化された知識グラフよりも性能が悪い(SPL:32.5および30.1)、意味のある事前知識構造の重要性を確認している。
  • GCNモジュールは、ベースラインA3Cモデル(約4 GFLOPs)に僅か0.12 GFLOPsの追加計算コストしか負わないため、計算コストの増加は最小限である。
  • すべての設定においてベースラインを上回る一般化性能を示しており、特にゼロショット状況で顕著である。意味的事前知識が、特定のシーンやオブジェクトに事前に触れていなくても、効果的な推論を可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。