QUICK REVIEW

[論文レビュー] ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation

Chuang Gan, J. Schwartz|arXiv (Cornell University)|Jul 9, 2020

Generative Adversarial Networks and Image Synthesis参考文献 42被引用数 129

ひとこと要約

TDW は、ほぼフォトリアルなレンダリング、マルチ-material 物理（剛体、ソフト、布、流体を含む）、音響合成、および VR 対応の人間/エージェント相互作用を組み合わせて、AI 研究のためのリッチなマルチモーダルシミュレーションを作成する汎用仮想世界プラットフォーム。

ABSTRACT

We introduce ThreeDWorld (TDW), a platform for interactive multi-modal physical simulation. TDW enables simulation of high-fidelity sensory data and physical interactions between mobile agents and objects in rich 3D environments. Unique properties include: real-time near-photo-realistic image rendering; a library of objects and environments, and routines for their customization; generative procedures for efficiently building classes of new environments; high-fidelity audio rendering; realistic physical interactions for a variety of material types, including cloths, liquid, and deformable objects; customizable agents that embody AI agents; and support for human interactions with VR devices. TDW's API enables multiple agents to interact within a simulation and returns a range of sensor and physics data representing the state of the world. We present initial experiments enabled by TDW in emerging research directions in computer vision, machine learning, and cognitive science, including multi-modal physical scene understanding, physical dynamics predictions, multi-agent interactions, models that learn like a child, and attention studies in humans and neural networks.

研究の動機と目的

embodiment AI および認知科学モデルのトレーニングとベンチマークを、1 つのマルチモーダルシミュレーション環境で動機付け・実現する。
高忠実度の視覚・聴覚レンダリングと高度な物理を提供し、多様な相互作用シナリオをサポートする。
知覚、ナビゲーション、操作タスクのための、多様で制御可能な環境を作成するための柔軟な API と資産ライブラリを提供する。
視覚、音声、物理予測、マルチエージェント相互作用、人間-ロボット協調などの分野横断的な実験を通じて TDW の有用性を実証する。
現実世界でタグ付けが困難な制御可能な物理パラメータを用いた合成データ生成を可能にすることで、将来の研究を促進する。

提案手法

Unity ベースのレンダリングと 2 つの物理エンジンを統合（非剛・材料相互作用には NVIDIA Flex、剛体には PhysX）。
レンダリング/音響/物理のための Unity ベースの Build、タスク指定のための Python API を備えた Controller の 2 構成アーキテクチャを提供；200 を超えるコマンドと単一タイムステップのコマンドバッチをサポート。
PBR 材料と 2,500 オブジェクトライブラリを備えた手続き的に生成された 3D アセット/環境を使用し、スケーラブルなシーン作成を可能にする。
リアルタイムの物理駆動のインパクト音響合成のための PyImpact を導入し、3D 空間音響には Resonance Audio を使用。
直接 API コントロールによるオブジェクト操作、具現化 AI エージェント（ロボット風の Magnebot や URDF で取り込んだボットを含む）、VR 人間相互作用の三つのインタラクションパラダイムをサポート。
視覚特徴転送、音響ベースの材料分類、マルチモーダルなシーン理解など、多モーダル実験を提示。

実験結果

リサーチクエスチョン

RQ1TDW 生成データは、実世界の視覚・音声タスクへ効果的に転移する表現を訓練できるか？
RQ2物理情報を伴うマルチモーダルシミュレーションは、音響的手掛かりから材料特性と質量の学習をどれほど支援できるか？
RQ3TDW 生成データと Hierarchical Relation Networks (HRN) のようなアーキテクチャを用いて、エンドツーエンド微分可能な物理予測を学習できるか？
RQ4VR におけるマルチエージェント相互作用と注意機構を研究する上での TDW の有用性はどれほどか、 Humans とニューラルエージェントを比較すると？
RQ5知覚、ダイナミクス、社会的相互作用ドメインにまたがる、スケーラブルで制御可能な実験を TDW はどのように実現するか。

主な発見

TDW 生成の視覚表現は、いくつかのカテゴリで ImageNet 前訓練モデルに近い性能を示す細分類タスクへ転移する。
TDW 合成音から訓練された音響ベースの材料分類は、Sound-20K のベースラインを大幅に上回り、合成音の多様性が一般化を改善することを示唆する。
視覚+音響のマルチモーダル入力は、材料と質量分類の精度を、いずれか一方のモダリティよりも高くする。これは現実的なマルチモーダルレンダリングの価値を示す。
TDW データで訓練された学習可能な物理予測子（DRHRN）は、リフト、スライド、衝突、積み上げ、布のシナリオにおけるダイナミクス予測でベースラインを上回り、一般化と形状保持の向上を示す。
プラットフォームは、高度な物理シーン理解のベンチマーク（例：オブジェクトの保持、ドレープ、沈下）を可能にし、学習ベースのダイナミクスモデルをサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。