Skip to main content
QUICK REVIEW

[論文レビュー] HoME: a Household Multimodal Environment

Simon Brodeur, Ethan Perez|arXiv (Cornell University)|Nov 29, 2017
Speech and dialogue systems参考文献 20被引用数 79
ひとこと要約

HoME は、大規模で、OpenAI Gym-compatible なプラットフォームであり、視覚、音響、意味論、物理、そしてマルチエージェント対応を備えた、45,622 SUNCG houses にわたるマルチモーダルなインタラクティブな 3D 家庭環境を提供します。

ABSTRACT

We introduce HoME: a Household Multimodal Environment for artificial agents to learn from vision, audio, semantics, physics, and interaction with objects and other agents, all within a realistic context. HoME integrates over 45,000 diverse 3D house layouts based on the SUNCG dataset, a scale which may facilitate learning, generalization, and transfer. HoME is an open-source, OpenAI Gym-compatible platform extensible to tasks in reinforcement learning, language grounding, sound-based navigation, robotics, multi-agent learning, and more. We hope HoME better enables artificial agents to learn as humans do: in an interactive, multimodal, and richly contextualized setting.

研究の動機と目的

  • 現実的な文脈の中でインタラクティブでマルチモーダルな体験を通じて知識を獲得する学習エージェントを動機づける。
  • 具象化されたAIの一般化と転移を改善するための、拡張性の高い多様なテストベッドを提供する。
  • 複数のモダリティ(視覚、音、意味論、物理)とマルチエージェント相互作用をサポートする、OpenAI Gym-compatible で拡張可能なプラットフォームを提供する。

提案手法

  • Panda3D をベースとしたレンダリングエンジンにより、テクスチャと照明を備えた RGB およびデプ visual シーンを生成します。
  • 複数ソースとマルチマイクの音声レンダリングのために ray-tracing を用いた EVERT を利用した音響エンジン。
  • 意味論エンジンは、オブジェクトの色、カテゴリ、材料、サイズ、位置とともに、意味的セグメーションと説明を提供します。
  • Bullet を基盤とした物理エンジンで、衝突、重力、オブジェクト操作、およびエージェントとオブジェクトの相互作用をサポートします。
  • OpenAI Gym と統合された Python フレームワークで、ランダムな家の初期化とマルチエージェントのスポーニングを可能にします。
  • 強化学習、言語グラウンディング、ブラインドナビゲーション、音声ベースの学習のタスクへ拡張可能に設計されています。

実験結果

リサーチクエスチョン

  • RQ1大規模なマルチモーダル環境は、視覚、音、意味論、物理を横断する仮想的に具現化された学習をどのように促進できるか?
  • RQ2スケール(45,622 houses)が学習の一般化と実世界シナリオへの転移を改善するか?
  • RQ3HoME で効果的に研究できるマルチモーダルタスクの種類(指示に従う、VQA、対話、音に基づくナビゲーション、マルチエージェント協働)はどのようなものか?
  • RQ4高忠実度の音響とインタラクティブな物理を統合することは、現実的な文脈での方針学習と grounding にどのような影響を与えるか?

主な発見

  • HoME は 3D 視覚レンダリング、高忠実度の音響、意味論アノテーション、物理、そしてマルチエージェント対応を単一のプラットフォームで提供します。
  • HoME は SUNCG をベースに 45,622 house layouts を備えており、学習と転移のための大規模で多様な環境を実現します。
  • HoME は CPU 上でリアルタイムを超える速度で動作し、GPU 加速をサポートし、データ収集を高速化するために複数の paralle l 環境インスタンスを許容します。
  • このプラットフォームは OpenAI Gym-compatible で、強化学習、言語グラウンディング、ナビゲーション、具象化AI研究を含む幅広いタスクに拡張可能です。
  • HoME は他のモダリティに加えて高忠実度のオーディオを独自に強調しており、マルチモーダルな実験と新しいタスク設計を促進します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。