QUICK REVIEW

[論文レビュー] Learning hierarchical relationships for object-goal navigation

Yiding Qiu, Anwesan Pal|arXiv (Cornell University)|Mar 15, 2020

Multimodal Machine Learning Applications参考文献 51被引用数 31

ひとこと要約

MJOLNIR は、 contexteベクトルと知識グラフ案内のグラフ畳み込みを活用して、未知環境でのターゲット探索を改善する、記憶ベースの階層的オブジェクト関係モデルを導入します。

ABSTRACT

Direct search for objects as part of navigation poses a challenge for small items. Utilizing context in the form of object-object relationships enable hierarchical search for targets efficiently. Most of the current approaches tend to directly incorporate sensory input into a reward-based learning approach, without learning about object relationships in the natural environment, and thus generalize poorly across domains. We present Memory-utilized Joint hierarchical Object Learning for Navigation in Indoor Rooms (MJOLNIR), a target-driven navigation algorithm, which considers the inherent relationship between target objects, and the more salient contextual objects occurring in its surrounding. Extensive experiments conducted across multiple environment settings show an $82.9\%$ and $93.5\%$ gain over existing state-of-the-art navigation methods in terms of the success rate (SR), and success weighted by path length (SPL), respectively. We also show that our model learns to converge much faster than other algorithms, without suffering from the well-known overfitting problem. Additional details regarding the supplementary material and code are available at https://sites.google.com/eng.ucsd.edu/mjolnir.

研究の動機と目的

セマンティックコンテキストとオブジェクト関係を活用して、堅牢なオブジェクトゴールナビゲーションを動機づける。
親-ターゲット関係を用いて探索を導く記憶強化階層フレームワークを導入する。
コンテキストベクトルと知識グラフベースの CGN を組み込んで、未知環境への一般化を改善する。

提案手法

ターゲットおよび親オブジェクト集合を定義し、視覚的生成物から prune された関係で知識グラフを構築する。
各オブジェクトに検出、位置、サイズ、ターゲットとの意味的類似度を捉えるコンテキストベクトルを導入する。
2-stream ネットワークを提案する: Observation stream (ResNet 特徴量または 5-D コンテキストベクトル) と CGN ストリーム（GCN 層を用いた）を用意する。
グラフ埋め込みを観測特徴と連結してジョイント埋め込みを形成し、A3C ポリシーへ入力する。報酬整形は、可視な親オブジェクトに部分報酬を提供する形式と、終了時にターゲットが可視である場合の組み合わせ報酬を組み合わせて実施する。

実験結果

リサーチクエスチョン

RQ1階層的な親-ターゲットオブジェクト関係は、未知環境でのナビゲーションの効率と成功率を改善するか。
RQ2コンテキストベクトルと更新された CGN を組み込むことで、学習速度と一般化能力が従来のシーン priors 手法より改善されるか。
RQ3報酬整形は学習の頑健性と収束にどのような影響を与えるか。
RQ4MJOLNIR-r と MJOLNIR-o の2つのバリアントは、性能と収束においてどのように比較されるか。

主な発見

MJOLNIR-o は未見のテスト環境で最高の SR と SPL を達成 (L>=1 で SR 65.3%、SPL 21.1% ; L>=5 で SR 50.0%、SPL 20.9%)。
MJOLNIR モデルはベースラインおよび従来手法を大幅に上回る (例: 報告された設定において MJOLNIR-o は最新技術と比較して SR の改善 82.9%、SPL の改善 93.5%）。
コンテキストベクトルはオブジェクト中心の意味情報を強化し、ResNet+GloVe のみを用いる場合よりナビゲーションの有効性を向上させる。
親-ターゲット関係を活用する報酬整形は収束を速め、シーン priors 手法と比較して過学習を減少させる。
MJOLNIR-r も依然としてベースラインを上回る顕著な効果を示し、文脈ベクトルがなくても CGN ストリームの貢献を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。