Skip to main content
QUICK REVIEW

[論文レビュー] Target driven visual navigation exploiting object relationships

Yiding Qiu, Anwesan Pal|arXiv (Cornell University)|Mar 15, 2020
Multimodal Machine Learning Applications参考文献 34被引用数 16
ひとこと要約

本稿では、メモリを活用した階層的学習フレームワークを用いて、特にターゲットオブジェクトとその顕著な親オブジェクトの間のオブジェクト関係を活用することで、ターゲット駆動型ビジョナルナビゲーションを実現するMJOLNIRを提案する。屋内環境における文脈的関係を明示的にモデル化することで、最先端の手法と比較して約30%高い成功率とより速い収束を達成する。

ABSTRACT

Recently driven visual navigation strategies have gained a lot of popularity in the computer vision and reinforcement learning community. Unfortunately, most of the current research tends to incorporate sensory input into a reward-based learning approach, with the hope that a robot can implicitly learn its optimal actions through recursive trials. These methods seldom generalize across domains as they fail to exploit natural environment object relationships. We present Memory-utilized Joint hierarchical Object Learning for Navigation in Indoor Rooms (MJOLNIR), a target-driven visual navigation algorithm, which considers the inherent relationship between target objects, along with the more salient parent objects occurring in its surrounding. Extensive experiments conducted across multiple environment settings show $\approx extbf{30 %}$ improvement over the existing state-of-the-art navigation methods in terms of the success rate. We also show that our model learns to converge much faster than other algorithms. We will make our code publicly available for use in the scientific community.

研究の動機と目的

  • 既存の報酬ベースのビジョナルナビゲーション手法のドメイン間での一般化性能の低さを解決すること。
  • 環境内におけるターゲットオブジェクトとその親オブジェクトの関係を明示的にモデル化することで、ナビゲーション性能を向上させること。
  • 文脈的なシーン構造を捉えるために、階層的でメモリ拡張型の学習フレームワークを構築すること。
  • ターゲット駆動型ビジョナルナビゲーションタスクにおいて、より速い収束とより高い成功率を達成すること。

提案手法

  • MJOLNIRは、メモリ拡張機構を用いて、オブジェクト関係とナビゲーション方策を同時に学習する階層的アーキテクチャを採用する。
  • ターゲットオブジェクトとそのより顕著な親オブジェクト(例:『マグ』が『テーブル』の上にある場合)の空間的および意味的関係をモデル化することで、シーン理解を向上させる。
  • メモリモジュールが関連するオブジェクト・コンテキスト特徴を保存・取得し、時間経過に伴うナビゲーション意思決定を支援する。
  • 報酬ベースの強化学習フレームワークを用いるが、オブジェクト階層からの構造的関係的インダクティブバイアスを組み込むことで強化する。
  • 視覚的観測とゴール条件付きの監視を用いてエンドツーエンドで学習することで、方策の一般化を向上させる。
  • シーンコンテキストを活用することで、探索の非効率性を低減し、収束を加速する。

実験結果

リサーチクエスチョン

  • RQ1ターゲットオブジェクトとその親オブジェクトの間のオブジェクト関係をモデル化することで、未確認の環境でもナビゲーションの成功確率が向上するか?
  • RQ2構造的関係的インダクティブバイアスを組み込むことで、ビジョナルナビゲーションエージェントの一般化性能と収束速度にどのような影響を与えるか?
  • RQ3メモリ拡張型階層的学習が、標準的な深層強化学習に比べて、ターゲット駆動型ナビゲーションでどれほど優れているか?
  • RQ4環境コンテキストの明示的モデル化は、標準的な報酬ベース手法と比較して、方策の収束をより速くするか?

主な発見

  • MJOLNIRは、複数の環境設定において、最先端のナビゲーション手法と比較して約30%高い成功率を達成する。
  • 既存の手法と比較して、収束が著しく速いため、より高いサンプル効率性を示している。
  • オブジェクト関係の組み込みにより、多様な屋内環境における一般化性能が向上する。
  • メモリ拡張型階層的設計により、文脈理解が向上し、広範な試行錯誤学習への依存が軽減される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。