QUICK REVIEW

[論文レビュー] Building Generalizable Agents with a Realistic and Rich 3D Environment

Yi Wu, Yuxin Wu|arXiv (Cornell University)|Jan 7, 2018

Multimodal Machine Learning Applications被引用数 253

ひとこと要約

論文はHouse3Dを紹介する。大規模で現実的な3D室内環境をSUNCGから構築し、セマンティックナビゲーションエージェントの訓練/ベンチマークに使用し、マルチレベルデータ拡張が未見の家へ対する一般化を向上させることを示す。

ABSTRACT

Teaching an agent to navigate in an unseen 3D environment is a challenging task, even in the event of simulated environments. To generalize to unseen environments, an agent needs to be robust to low-level variations (e.g. color, texture, object changes), and also high-level variations (e.g. layout changes of the environment). To improve overall generalization, all types of variations in the environment have to be taken under consideration via different level of data augmentation steps. To this end, we propose House3D, a rich, extensible and efficient environment that contains 45,622 human-designed 3D scenes of visually realistic houses, ranging from single-room studios to multi-storied houses, equipped with a diverse set of fully labeled 3D objects, textures and scene layouts, based on the SUNCG dataset (Song et.al.). The diversity in House3D opens the door towards scene-level augmentation, while the label-rich nature of House3D enables us to inject pixel- & task-level augmentations such as domain randomization (Toubin et. al.) and multi-task training. Using a subset of houses in House3D, we show that reinforcement learning agents trained with an enhancement of different levels of augmentations perform much better in unseen environments than our baselines with raw RGB input by over 8% in terms of navigation success rate. House3D is publicly available at http://github.com/facebookresearch/House3D.

研究の動機と目的

未見の3D環境で多様な部屋や物体に対して一般化するエージェントの必要性を動機づける。
SUNCGから派生させた大規模で多様でラベル豊富な環境（House3D）を作成し、セマンティックナビゲーションを研究する。
一般化をテストする概念駆動のナビゲーションベンチマークとしてRoomNavを開発する。
ナビゲーションタスクにおける多ターゲット条件付けを扱うゲート付きアテンションポリシーのアーキテクチャを提案する。
未見の環境への一般化を改善するためにピクセルレベル、タスクレベル、シーンレベルの拡張がどのように有効かを評価する。

提案手法

SUNCGからHouse3Dを構築し、80超のオブジェクトカテゴリとマルチモーダルな観測（RGB、深度、セグメンテーション、トップダウンマップ）を備えた45,622のシーンを提供する。
RoomNavを定義する：指示Iとして与えられたターゲットセマンティック概念（例：キッチン）へナビゲートし、未見の家で評価する。
ゲート付き-CNN（DDPG）とゲート付き-LSTM（A3C）ポリシーを使用し、機能融合のゲーティング機構を介してターゲット概念を条件付けする。
ピクセルレベル（ドメインランダム化）、タスクレベル（補助ターゲット）、シーンレベル（より大きな環境セット）の拡張を適用して一般化を強化する。
RGBのみ、RGB+Depth、マスク+Depth入力を比較し、深度/セマンティック入力がロバスト性と一般化を改善することを示す。
標準的な強化学習アルゴリズム（DDPG、A3C）で訓練し、報酬設計を用いて訓練中の学習を誘導する。

実験結果

リサーチクエスチョン

RQ1未見の3D環境へ一般化する際に、入力モダリティ（RGB、Depth、セマンティックマスク）の影響は何か？
RQ2ピクセルレベル、タスクレベル、シーンレベルの拡張は、RoomNavの一般化に個別におよび共同でどのように影響するか？
RQ3ゲート付きアテンションポリシーは多ターゲットナビゲーションにおいて高レベルのセマンティックターゲットを効果的に条件付けできるか？
RQ4環境の多様性（シーンレベルの拡張）を増やすと過適合を減らし未見環境での成功率は向上するか？
RQ5RoomNavにおけるRGBのみ入力に対する深度/セマンティック信号の性能向上はどれくらいか？

主な発見

最終的なゲート付きLSTMエージェントがセマンティック信号を用いて50の未見環境で35.8%の成功率を達成し、ベースラインの25.7%より約10%高い。
深度とセマンティックセグメンテーション入力はRGBのみの入力より一般化を改善する。
ドメインランダム化によるピクセルレベルの拡張は、小規模データセットでセグメンテーションマスクと同等の改善をもたらす。
補助ターゲットを用いたタスクレベルの拡張はRGB入力の過適合を減らし一般化を高める。
より大きく多様な家のセットで訓練することによるシーンレベル拡張は過適合を大幅に減少させ、テスト性能を向上させる。
入力全体に渡り、LSTMベースのポリシーは大規模で複雑な訓練セットでCNNベースより性能が良く、記憶が一般化に有益であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。