QUICK REVIEW

[論文レビュー] MINOS: Multimodal Indoor Simulator for Navigation in Complex Environments

Manolis Savva, Anne Lynn S. Chang|arXiv (Cornell University)|Dec 11, 2017

Mobile Crowdsensing and Crowdsourcing参考文献 13被引用数 151

ひとこと要約

MINOS は現実的な混雑環境でのゴール指向ナビゲーションを開発・ベンチマークする大規模なマルチモーダル室内シミュレータ（SUNCG と Matterport3D）を提供し、マルチモーダルなセンサ入力と複数の RL ベースのナビゲーション手法を評価する。

ABSTRACT

We present MINOS, a simulator designed to support the development of multisensory models for goal-directed navigation in complex indoor environments. The simulator leverages large datasets of complex 3D environments and supports flexible configuration of multimodal sensor suites. We use MINOS to benchmark deep-learning-based navigation methods, to analyze the influence of environmental complexity on navigation performance, and to carry out a controlled study of multimodality in sensorimotor learning. The experiments show that current deep reinforcement learning approaches fail in large realistic environments. The experiments also indicate that multimodality is beneficial in learning to navigate cluttered scenes. MINOS is released open-source to the research community at http://minosworld.org . A video that shows MINOS can be found at https://youtu.be/c0mL9K64q84

研究の動機と目的

現実的な室内環境で多感覚ナビゲーションモデルの開発を動機づけ、可能にする。
大規模データセット（SUNCG と Matterport3D）を活用して、さまざまなレイアウト間の一般化を研究する。
制御実験のための柔軟なマルチモーダルセンサ対応と環境カスタマイズを提供する。
最新の RL ベースナビゲーション手法をベンチマークし、環境の複雑さが性能に与える影響を分析する。
混雑した室内ナビゲーションにおけるマルチモーダル入力の利点を示し、ツールをオープンソースとして公開する。

提案手法

MINOS を SUNCG（約4.5万軒）と Matterport3D（約90の居住空間）を用いた高速・柔軟なシミュレータとして導入する。
モジュール式センサ群（視覚、深度、表面法線、触覚、意味論）とプログラム可能なセンサ構成をサポートする。
環境カスタマイズ（テクスチャ/クラッターの変化、物体操作）とゴール駆動タスク（PointGoal、ObjectGoal、RoomGoal）を提供する。
WebGL レンダリングと RL 学習および対話的使用のための Python/ウェブクライアントを用いたサーバ-クライアントアーキテクチャを実装する。
連続および離散のエージェント制御を可能とし、パラメータ化された物理モデルと事前構成された複数のエージェント（離散/連続）を提供する。
さまざまなモダリティと環境の複雑さの下で複数のエージェント（A3C FF、A3C LSTM、UNREAL、Direct Future Prediction）をベンチマークする。

実験結果

リサーチクエスチョン

RQ1現在の深層 RL ナビゲーション手法は、大規模で現実的な室内環境でどのように性能を示すか？
RQ2マルチモーダル sensing（視覚、深度、触覚、意味論）は、混雑した室内シーンでナビゲーション性能を向上させるか？
RQ3環境の複雑さ（サイズ、家具、リアリズム）は unseen 環境への一般化にどう影響するか？
RQ4データセットのリアリズム（合成 SUNCG vs 再構成された Matterport3D）はナビゲーション性能にどのように影響するか？
RQ5MINOS は手法とセンサ構成間の制御された比較を促進できるか？

主な発見

環境	データセット	タスク	クラッター	サイズ	ランダム	A3C-FF	A3C-LSTM	DFP
PointGoal	SUNCG	Empty	Small	23.8	10.1	69.1	80.3	72.9
PointGoal	SUNCG	Empty	Medium	8.6	7.2	57.4	64.1	63.2
PointGoal	SUNCG	Furnished	Small	9.5	16.1	60.9	64.5	64.1
PointGoal	SUNCG	Furnished	Medium	6.3	7.9	41.3	43.6	45.3
PointGoal	Matterport3D	Furnished	Small	0.0	2.0	32.0	27.3	38.0
PointGoal	Matterport3D	Furnished	Medium	0.0	2.0	0.0	18.2	20.0
RoomGoal	SUNCG	Furnished	Small	10.0	25.7	30.0	22.5	58.6
RoomGoal	SUNCG	Furnished	Medium	3.1	6.9	7.2	4.0	32.0
RoomGoal	Matterport3D	Furnished	Small	5.0	12.0	14.0	13.6	14.0

ほとんどの深層 RL 手法は家具付きの Matterport3D 環境で苦戦し、PointGoal の成功率はしばしば 20% 未満である。
RoomGoal タスクは報酬信号が意味論的ゴールで希薄になるため、さらにパフォーマンスは低い。
評価された手法の中で UNREAL が一般に最も良く、続いて DFP と A3C-LSTM がこれに続く。A3C-FF は劣る。
Depth と触覚モダリティは特に強力で、モダリティを組み合わせると混雑した環境で最良の性能を達成する。
マルチモーダル入力は混雑した設定でのナビゲーションを著しく改善し、深度を含む組み合わせが最も強い利益をもたらすことが多い。
環境のサイズとクラッターが増すと性能が大幅に低下し、現行の RL 手法は現実的な室内ナビゲーションでのスケーラビリティに限界がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。