QUICK REVIEW

[論文レビュー] Gibson Env: Real-World Perception for Embodied Agents

Fei Xia, Amir Zamir|arXiv (Cornell University)|Aug 31, 2018

Advanced Vision and Imaging被引用数 56

ひとこと要約

Gibson Env は、現実空間を仮想化して実世界の認識を実装型エージェント向けに訓練・評価し、現実からレンダリングへのドメイン整合性のために Goggles を使用し、能動的な知覚タスクと静的認識の転移で検証する。

ABSTRACT

Developing visual perception models for active agents and sensorimotor control are cumbersome to be done in the physical world, as existing algorithms are too slow to efficiently learn in real-time and robots are fragile and costly. This has given rise to learning-in-simulation which consequently casts a question on whether the results transfer to real-world. In this paper, we are concerned with the problem of developing real-world perception for active agents, propose Gibson Virtual Environment for this purpose, and showcase sample perceptual tasks learned therein. Gibson is based on virtualizing real spaces, rather than using artificially designed ones, and currently includes over 1400 floor spaces from 572 full buildings. The main characteristics of Gibson are: I. being from the real-world and reflecting its semantic complexity, II. having an internal synthesis mechanism, "Goggles", enabling deploying the trained models in real-world without needing further domain adaptation, III. embodiment of agents and making them subject to constraints of physics and space.

研究の動機と目的

物理制約の下で活動する、能動的で具象化されたエージェント向けの知覚モデルの必要性を動機づける。
完全に合成世界に依存せず、現実空間ベースの仮想環境として Gibson を提案し、知覚を訓練する。
ニューラルビュー合成パイプラインと Goggles ドメイン整合を導入し、レンダリングと実画像を結びつける。
Gibson で訓練した能動的な知覚タスク（障害物回避、遠距離ナビゲーション、階段昇降）を実画像へ転移させ、転移を検証する。

提案手法

実測スキャン空間（572 棟、1447 階、211k m^2）をRGB パノラマ画像と3Dメッシュで再構成して Gibson を構築する。
希少な RGB-D パノラマから幾何的点群レンダリングを行う2段階のビュー合成を開発し、アーティファクトを修正するニューラルフィラー（f）と、実画像をレンダリングへ適合させるバックワード関数（u） Goggles を適用する。
知覚学習時に具象性制約を課す物理エンジン（PyBullet）を統合する。
追加モダリティ（深度、法線、セマンティクス、固有受容覚）と、タスク用の OpenAI Gym 的なインタフェースを提供する。
強化学習（例：PPO）を用いて能動タスクの知覚方策を訓練し、Goggles を用いて実世界の画像への転移を評価する。
ビュー合成品質を L1/SSIM で定量化し、実画像とレンダリング画像のドメイン整合性を MMD および CORAL で評価する。

実験結果

リサーチクエスチョン

RQ1Gibson で訓練された知覚モデルは、広範なドメイン適応を必要とせずに実世界の画像へ効果的に転移できるか。
RQ2Goggles の機構は Gibson のレンダリングと実画像との整合性を改善し、静的認識タスクの転移をより良くするか。
RQ3局所計画、遠距離ナビゲーション、階段昇降などの能動タスクにおける視覚知覚の性能にどのような影響があるか。
RQ4訓練/テストペアでの深度推定とシーン分類の点で Gibson レンダリングは実画像にどれほど近いか。

主な発見

データセット	Gibson	SUNCG	Matterport3D
空間数	572	45622	90
総カバー面積 m^2	211k	5.8M	46.6K
SSA	1.38	0.74	0.92
Nav. Complexity	5.98	2.29	7.80
実世界転移誤差	0.92	2.89	2.11

Gibson は 572 空間（211k m^2）を横断し、現実世界に近い知覚環境の多様性を提供する。
Gibson のビュー合成パイプラインは、幾何レンダリングとニューラルフィラー、Goggles のバックワードマッパーを組み合わせてレンダリングと実画像を橋渡しする。
実世界画像への転移のためには、f(I_s) と u(I_t) のペアリングが、深度推定とシーン分類タスクにおいて最も強い整合性を示す。
ドメイン整合性指標（MMD、CORAL）および最近傍解析は、f(I_s) と u(I_t) が密接にマッチした連結空間を占め、知覚的ギャップを縮小することを支持する。
Gibson で学習した能動的知覚タスク（局所計画、遠距離ナビゲーション、階段昇降）は、知覚を含む場合に非知覚的ベースラインと比較して性能が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。